PowerInfer

9.3k 554 较难 1 次阅读今天MIT语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

PowerInfer 是一款专为个人电脑设计的高速大语言模型推理引擎，旨在让普通消费级显卡也能流畅运行大型 AI 模型。它主要解决了在本地设备部署大模型时显存受限、推理速度慢的难题，无需依赖昂贵的服务器集群即可实现高效响应。

无论是希望保护数据隐私的开发者、需要快速验证算法的研究人员，还是想在本地体验先进 AI 能力的普通用户，都能从中受益。PowerInfer 的核心技术亮点在于巧妙利用了大模型推理过程中的“激活局部性”特征（即神经元激活遵循幂律分布），通过 CPU 与 GPU 的协同工作，仅动态加载和计算关键参数。这种机制大幅降低了显存占用并提升了计算效率。实测数据显示，在单张 RTX 4090 显卡上运行 400 亿参数的模型时，其速度可比传统方案提升 11 倍以上。此外，它还支持 Windows 及 AMD ROCm 环境，并推出了针对手机端优化的版本，真正推动了高性能 AI 在终端设备上的普及。

使用场景

一位独立开发者试图在配备单张 RTX 4090 显卡的工作站上，本地部署并运行参数量巨大的 Falcon-40B 模型，以构建一个完全离线、数据隐私安全的代码辅助助手。

没有 PowerInfer 时

推理速度极慢：由于显存带宽瓶颈，生成代码的速度仅为每秒几个 token，回答延迟高达数秒，严重打断编程思路。
硬件门槛过高：为了勉强运行大模型，不得不将量化精度压得过低导致智能程度下降，或者被迫租用昂贵的云端 GPU 集群。
资源利用率低：传统推理引擎（如 llama.cpp）无法有效利用神经元激活的稀疏性，导致计算资源浪费，风扇狂转却产出缓慢。
交互体验割裂：漫长的等待时间使得“流式输出”失去意义，开发者无法在模型生成过程中实时预览和干预结果。

使用 PowerInfer 后

推理速度飞跃：利用激活局部性（Activation Locality）技术，在同等硬件下将 Falcon-40B 的生成速度提升 11 倍，达到流畅的对话级响应。
消费级显卡胜任：无需升级硬件或上云，单张消费级 GPU 即可全精度流畅运行 40B 级别大模型，大幅降低部署成本。
稀疏计算优化：PowerInfer 智能跳过非活跃神经元，仅计算关键参数，在保证模型智商不降级的前提下极大减少了计算量。
实时流式交互：生成的代码几乎随想随出，开发者可以像与真人结对编程一样，实时观察并修正模型输出的每一行代码。

PowerInfer 通过挖掘模型内部的稀疏特性，让普通开发者的本地电脑也能拥有媲美云超算的大模型推理速度，真正实现了高性能 AI 的普惠化。

运行环境要求

操作系统

Linux
Windows
macOS

GPU

非必需（支持纯 CPU 运行）
若使用 GPU：支持 NVIDIA (需开启 CUBLAS) 或 AMD (需开启 HIPBLAS/ROCm)
macOS 目前仅支持 CPU，Metal 后端开发中
显存大小未明确说明，但设计目标为消费级显卡（如 RTX 4090），通过冷热神经元分离技术降低显存需求以运行大模型

内存

未说明（需容纳冷神经元计算及模型权重，建议大容量内存）

依赖

notes1. CPU 需支持 AVX2 指令集。2. 核心特性是利用激活局部性（Activation Locality），将‘热’神经元预加载至 GPU，‘冷’神经元在 CPU 计算，从而在单张消费级显卡上运行超大模型（如 40B+）。3. 必须使用特定的 PowerInfer GGUF 格式模型（包含预测器权重和激活统计信息），直接使用普通 llama.cpp 权重无法获得性能提升。4. AMD 用户需根据显卡架构设置 AMDGPU_TARGETS（如 gfx1100）。5. macOS (M 芯片) 目前性能优化不明显。

python3.8+

CMake (3.17+)

pip (19.3+)

快速开始

PowerInfer：使用消费级显卡实现快速的大语言模型推理

简要说明

PowerInfer 是一款利用激活局部性为您的设备提供服务的 CPU/GPU LLM 推理引擎。

项目看板

演示 🔥

https://github.com/SJTU-IPADS/PowerInfer/assets/34213478/fe441a42-5fce-448b-a3e5-ea4abb43ba23

在单块 RTX 4090(24G) 上运行 Falcon(ReLU)-40B-FP16 时，PowerInfer 与 llama.cpp 的对比，速度提升了 11 倍！

_{PowerInfer 和 llama.cpp 都在同一硬件上运行，并充分利用了 RTX 4090 的显存。}

[!NOTE] 在线实时演示⚡️

试试我们在 RTX 4090 上托管 Falcon(ReLU)-40B-FP16 的 Gradio 服务器！

_{实验性质，不提供任何保证🚧}

摘要

我们推出了 PowerInfer，这是一款在配备单个消费级显卡的个人电脑（PC）上运行的高速大语言模型（LLM）推理引擎。PowerInfer 设计的核心在于利用 LLM 推理中固有的高 局部性，其特征是神经元激活呈现幂律分布。

这种分布表明，一小部分被称为“热神经元”的神经元会在不同输入之间持续被激活，而大多数“冷神经元”则会根据具体输入而变化。PowerInfer 利用这一洞察，设计了一种 GPU-CPU 混合推理引擎：热激活的神经元被预先加载到 GPU 中以便快速访问，而冷激活的神经元则在 CPU 上进行计算，从而显著降低 GPU 显存需求和 CPU-GPU 数据传输量。此外，PowerInfer 还集成了自适应预测器和神经元感知稀疏算子，进一步优化了神经元激活效率和计算稀疏性。

评估结果显示，在单个 NVIDIA RTX 4090 GPU 上，PowerInfer 在多种 LLM（包括 OPT-175B）上实现了平均 13.20 tokens/s 的令牌生成速率，峰值可达 29.08 tokens/s，仅比顶级服务器级 A100 GPU 的表现低 18%。这显著优于 llama.cpp，速度最高可提升 11.69 倍，同时保持模型精度。

特点

PowerInfer 是一款高速且易于使用的推理引擎，可用于在本地部署 LLM。

PowerInfer 的优势在于：

以局部性为核心的设计：利用稀疏激活和“热”/“冷”神经元概念，实现高效的 LLM 推理，确保在较低资源消耗下仍能保持高速。
CPU/GPU 混合利用：无缝整合 CPU 和 GPU 的内存与计算能力，实现负载均衡和更快的处理速度。

PowerInfer 具有灵活性和易用性，具体体现在：

易于集成：兼容流行的 ReLU 稀疏模型。
本地部署便捷：专为消费级硬件的本地部署而设计并深度优化，可在单个 GPU 上实现低延迟的 LLM 推理和服务。
向后兼容性：尽管与 llama.cpp 不同，您仍然可以像使用 llama.cpp 一样使用大部分 examples/ 文件，例如服务器模式和批量生成。PowerInfer 也支持使用 llama.cpp 的模型权重进行推理，以确保兼容性，但不会带来性能提升。

您今天就可以使用以下模型与 PowerInfer 配合：

Falcon-40B
Llama2 系列
ProSparse Llama2 系列
Bamboo-7B

我们已经在以下平台上测试过 PowerInfer：

具备 AVX2 指令集的 x86-64 CPU，无论是否配备 NVIDIA 显卡，均在 Linux 系统上运行。
具备 AVX2 指令集的 x86-64 CPU，无论是否配备 NVIDIA 显卡，均在 Windows 系统上运行。
Apple M 芯片（仅 CPU），在 macOS 系统上运行。（由于我们尚未针对 Mac 进行优化，目前性能提升并不显著。）

即将推出的新功能：

适用于 macOS 的 Metal 后端，用于稀疏推理。

请参阅我们的项目看板以了解我们当前的开发重点。

设置与安装

前置条件

PowerInfer 需要以下依赖项：

CMake (3.17+)
Python (3.8+) 和 pip (19.3+)，用于模型权重转换及自动 FFN 卸载

获取代码

git clone https://github.com/Tiiny-AI/PowerInfer
cd PowerInfer
pip install -r requirements.txt # 安装 Python 辅助工具的依赖

构建

为了构建 PowerInfer，您有两种不同的选项。这些命令应在项目的根目录下执行。

使用 CMake（3.17+）：

如果您有 NVIDIA 显卡：

cmake -S . -B build -DLLAMA_CUBLAS=ON
cmake --build build --config Release

如果您有 AMD 显卡：

# 将 '1100' 替换为您显卡的架构名称，可通过 rocminfo 获取
CC=/opt/rocm/llvm/bin/clang CXX=/opt/rocm/llvm/bin/clang++ cmake -S . -B build -DLLAMA_HIPBLAS=ON -DAMDGPU_TARGETS=gfx1100
cmake --build build --config Release

如果您只有 CPU：

cmake -S . -B build
cmake --build build --config Release

模型权重

PowerInfer 模型以基于 GGUF 格式的特殊格式 PowerInfer GGUF 存储，包含 LLM 权重和预测器权重。

通过 Hugging Face 下载 PowerInfer GGUF

您可以在以下 Hugging Face 仓库中获取 .powerinfer.gguf 格式的 PowerInfer GGUF 权重，以及用于“热点”神经元卸载的模型激活统计信息。

基础模型	PowerInfer GGUF
LLaMA(ReLU)-2-7B	PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF
LLaMA(ReLU)-2-13B	PowerInfer/ReluLLaMA-13B-PowerInfer-GGUF
Falcon(ReLU)-40B	PowerInfer/ReluFalcon-40B-PowerInfer-GGUF
LLaMA(ReLU)-2-70B	PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF
ProSparse-LLaMA-2-7B	PowerInfer/ProSparse-LLaMA-2-7B-GGUF
ProSparse-LLaMA-2-13B	PowerInfer/ProSparse-LLaMA-2-13B-GGUF
Bamboo-base-7B 🌟	PowerInfer/Bamboo-base-v0.1-gguf
Bamboo-DPO-7B 🌟	PowerInfer/Bamboo-DPO-v0.1-gguf

我们建议使用 huggingface-cli 下载整个模型仓库。例如，以下命令会将 PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF 下载到 ./ReluLLaMA-7B 目录中。

huggingface-cli download --resume-download --local-dir ReluLLaMA-7B --local-dir-use-symlinks False PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF

因此，PowerInfer 可以自动利用以下目录结构实现功能完整的模型卸载：

.
├── *.powerinfer.gguf (未量化 PowerInfer 模型)
├── *.q4.powerinfer.gguf (如果可用，则为 INT4 量化 PowerInfer 模型)
├── activation (用于细粒度 FFN 卸载的已分析激活统计信息)
│   ├── activation_x.pt (第 x 层的已分析激活统计信息)
│   └── ...
├── *.[q4].powerinfer.gguf.generated.gpuidx (运行时为相应模型生成的 GPU 索引)

从原始模型权重 + 预测器权重转换

Hugging Face 对单个模型权重的大小限制为 50GiB。对于 ≥ 40B 的未量化模型，您可以使用从 Hugging Face 获取的原始模型权重和预测器权重来转换为 PowerInfer GGUF。

基础模型	原始模型	预测器
LLaMA(ReLU)-2-7B	SparseLLM/ReluLLaMA-7B	PowerInfer/ReluLLaMA-7B-Predictor
LLaMA(ReLU)-2-13B	SparseLLM/ReluLLaMA-13B	PowerInfer/ReluLLaMA-13B-Predictor
Falcon(ReLU)-40B	SparseLLM/ReluFalcon-40B	PowerInfer/ReluFalcon-40B-Predictor
LLaMA(ReLU)-2-70B	SparseLLM/ReluLLaMA-70B	PowerInfer/ReluLLaMA-70B-Predictor
ProSparse-LLaMA-2-7B	SparseLLM/ProSparse-LLaMA-2-7B	PowerInfer/ProSparse-LLaMA-2-7B-Predictor
ProSparse-LLaMA-2-13B	SparseLLM/ProSparse-LLaMA-2-13B	PowerInfer/ProSparse-LLaMA-2-13B-Predictor
Bamboo-base-7B 🌟	PowerInfer/Bamboo-base-v0.1	PowerInfer/Bamboo-base-v0.1-predictor
Bamboo-DPO-7B 🌟	PowerInfer/Bamboo-DPO-v0.1	PowerInfer/Bamboo-DPO-v0.1-predictor

您可以使用以下命令将原始模型权重和预测器权重转换为 PowerInfer GGUF：

# 确保已执行 `pip install -r requirements.txt`
python convert.py --outfile /PATH/TO/POWERINFER/GGUF/REPO/MODELNAME.powerinfer.gguf /PATH/TO/ORIGINAL/MODEL /PATH/TO/PREDICTOR

# python convert.py --outfile ./ReluLLaMA-70B-PowerInfer-GGUF/llama-70b-relu.powerinfer.gguf ./SparseLLM/ReluLLaMA-70B ./PowerInfer/ReluLLaMA-70B-Predictor

出于同样的原因，我们建议在转换后保持与 PowerInfer GGUF 仓库相同的目录结构。

将原始模型转换为稠密 GGUF 模型（与 llama.cpp 兼容）

python convert-dense.py --outfile /PATH/TO/DENSE/GGUF/REPO/MODELNAME.gguf /PATH/TO/ORIGINAL/MODEL
# python convert-dense.py --outfile ./Bamboo-DPO-v0.1-gguf/bamboo-7b-dpo-v0.1.gguf --outtype f16 ./Bamboo-DPO-v0.1

请注意，生成的稠密 GGUF 模型可能无法与 llama.cpp 正常工作，因为我们修改了激活函数（针对 ReluLLaMA 和 Prosparse 模型），或模型架构（针对 Bamboo 模型）。由 convert-dense.py 生成的稠密 GGUF 模型可用于 PowerInfer 的稠密推理模式，但可能无法与 llama.cpp 正常配合使用。

推理

对于仅使用 CPU 或 CPU-GPU 混合推理且充分利用所有显存的情况，您可以按照以下说明运行 PowerInfer：

./build/bin/main -m /PATH/TO/MODEL -n $output_token_count -t $thread_num -p $prompt
# 例如：./build/bin/main -m ./ReluFalcon-40B-PowerInfer-GGUF/falcon-40b-relu.q4.powerinfer.gguf -n 128 -t 8 -p "Once upon a time"
# 对于 Windows：.\build\bin\Release\main.exe -m .\ReluFalcon-40B-PowerInfer-GGUF\falcon-40b-relu.q4.powerinfer.gguf -n 128 -t 8 -p "Once upon a time"

如果您希望限制 GPU 的显存使用量：

./build/bin/main -m /PATH/TO/MODEL -n $output_token_count -t $thread_num -p $prompt --vram-budget $vram_gb
# 例如：./build/bin/main -m ./ReluLLaMA-7B-PowerInfer-GGUF/llama-7b-relu.powerinfer.gguf -n 128 -t 8 -p "Once upon a time" --vram-budget 8
# 对于 Windows：.\build\bin\Release\main.exe -m .\ReluLLaMA-7B-PowerInfer-GGUF\llama-7b-relu.powerinfer.gguf -n 128 -t 8 -p "Once upon a time" --vram-budget 8

在 CPU-GPU 混合推理模式下，PowerInfer 会自动将所有稠密激活块卸载到 GPU 上，并在可能的情况下拆分 FFN 并将其卸载到 GPU。

稠密推理模式（有限支持）

如果您想使用 PowerInfer 推理家族中的稠密变体，可以像使用 llama.cpp 一样操作：

./build/bin/main -m /PATH/TO/DENSE/MODEL -n $output_token_count -t $thread_num -p $prompt -ngl $num_gpu_layers
# 例如：./build/bin/main -m ./Bamboo-base-v0.1-gguf/bamboo-7b-v0.1.gguf -n 128 -t 8 -p "Once upon a time" -ngl 12

其他 examples/ 目录下的示例，如 server 和 batched_generation，也是如此。请注意，稠密推理模式并非适用于所有模型的“兼容模式”。在此模式下，我们为了匹配我们的模型家族，修改了激活函数（针对 ReluLLaMA 和 Prosparse 模型）。

服务、困惑度评估及其他应用

PowerInfer 支持与 llama.cpp 相同的服务和批量生成指令。通常，您可以使用与 llama.cpp 相同的命令，只是将 -ngl 参数替换为 PowerInfer 的 --vram-budget。请参阅每个 examples/ 目录中的详细说明。例如：

量化

PowerInfer 针对 INT4（Q4_0）模型优化了量化支持。您可以使用以下指令对 PowerInfer GGUF 模型进行量化：

./build/bin/quantize /PATH/TO/MODEL /PATH/TO/OUTPUT/QUANTIZED/MODEL Q4_0
# 例如：./build/bin/quantize ./ReluFalcon-40B-PowerInfer-GGUF/falcon-40b-relu.powerinfer.gguf ./ReluFalcon-40B-PowerInfer-GGUF/falcon-40b-relu.q4.powerinfer.gguf Q4_0
# 对于 Windows：.\build\bin\Release\quantize.exe .\ReluFalcon-40B-PowerInfer-GGUF\falcon-40b-relu.powerinfer.gguf .\ReluFalcon-40B-PowerInfer-GGUF\falcon-40b-relu.q4.powerinfer.gguf Q4_0

然后您就可以使用量化后的模型，按照上述相同的方法进行 PowerInfer 推理。

评估

我们在单块 RTX 4090（24G）上，使用一系列 FP16 ReLU 模型，在输入长度为 64 的情况下，对 PowerInfer 与 llama.cpp 进行了对比评估，结果如下所示。PowerInfer 在 Falcon 40B 上实现了最高 11 倍的加速，在 Llama 2 70B 上实现了最高 3 倍的加速。

github-eval-4090 _{X 轴表示输出长度，Y 轴表示相对于 llama.cpp 的加速倍数。每个柱状图上方的数字表示端到端生成速度（总提示时间 + 生成时间 / 总生成令牌数，单位为 tokens/s）。}

我们还在单块 RTX 2080Ti（11G）上，使用 INT4 ReLU 模型，在输入长度为 8 的情况下进行了评估，结果以相同的方式展示。PowerInfer 在 Falcon 40B 上实现了最高 8 倍的加速，在 Llama 2 70B 上实现了最高 3 倍的加速。

github-eval-2080ti-q4

更多评估细节，请参阅我们的论文。

常见问题解答

如果遇到 CUDA_ERROR_OUT_OF_MEMORY 错误怎么办？
- 您可以尝试使用 --reset-gpu-index 参数来重建该模型的 GPU 索引，以避免任何过时的缓存。
- 由于我们目前的实现方式，模型卸载可能不如预期准确。您可以尝试使用略低的 --vram-budget 值，或使用 --disable-gpu-index 来禁用 FFN 卸载。
PowerInfer 是否支持 Mistral、原始 Llama、通义千问等模型？
- 目前我们仅支持具有 ReLU/ReGLU/平方 ReLU 激活函数的模型。因此，我们暂时不支持这些模型。值得一提的是，一篇论文表明，使用 ReLU/ReGLU 激活函数对收敛性和性能的影响可以忽略不计。
为什么我们当前的 ReLU 模型，尤其是 70B 模型，在性能指标上出现了明显下降？
- 与 LLM 训练通常需要约 2T 个标记不同，我们的模型仅使用了 5B 个标记进行微调。这种不足的再训练导致模型无法恢复其原有的性能。我们正在积极努力更新到更强大的模型，请继续关注。
如果……
- 欢迎提出任何问题！请随时创建一个议题，并附上您的运行环境和运行参数。我们将尽最大努力帮助您。

待办事项

我们将按照以下顺序发布代码和数据，请持续关注！

发布 PowerInfer 核心代码，支持 Llama-2 和 Falcon-40B。
支持 ~~Mistral-7B~~（Bamboo-7B）
支持 Windows 系统
支持 text-generation-webui
发布困惑度评估代码
支持 Mac 上的 Metal 加速
发布 OPT 模型相关代码
发布预测器训练代码
支持 FFN 网络的在线拆分
支持多 GPU 运行

论文与引用

更多技术细节请参阅我们的论文。

如果您认为 PowerInfer 对您的项目或研究有帮助或相关性，请引用我们的论文：

@misc{song2023powerinfer,
      title={PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU},
      author={Yixin Song and Zeyu Mi and Haotong Xie and Haibo Chen},
      year={2023},
      eprint={2312.12456},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

致谢

我们感谢 ggml 易于修改的算子库以及 llama.cpp 提供的执行运行时。同时，我们也感谢 THUNLP 对基于 ReLU 的稀疏模型的支持。此外，我们还受益于 Deja Vu 的研究成果，这些工作为 PowerInfer 提供了灵感。

PowerInfer 快速上手指南

PowerInfer 是一款专为消费级 GPU 设计的高速大语言模型（LLM）推理引擎。它利用神经元激活的“局部性”原理，将高频激活的“热神经元”驻留显存，低频激活的“冷神经元”卸载至 CPU 计算，从而在单张显卡上实现接近服务器级 GPU 的推理速度。

环境准备

系统要求

PowerInfer 支持以下平台：

Linux / Windows: x86-64 架构 CPU（需支持 AVX2 指令集），可选配 NVIDIA 或 AMD GPU。
macOS: Apple M 系列芯片（仅 CPU 模式，目前性能优化有限）。

前置依赖

在开始之前，请确保系统已安装以下工具：

CMake: 版本 3.17 或更高
Python: 版本 3.8 或更高
pip: 版本 19.3 或更高
GPU 驱动:
- NVIDIA 用户需安装 CUDA Toolkit
- AMD 用户需安装 ROCm/HIP

安装步骤

1. 获取代码与依赖

克隆项目仓库并安装 Python 辅助工具依赖：

git clone https://github.com/Tiiny-AI/PowerInfer
cd PowerInfer
pip install -r requirements.txt

2. 编译构建

根据硬件配置选择对应的编译命令（在项目根目录执行）：

场景 A：拥有 NVIDIA GPU

cmake -S . -B build -DLLAMA_CUBLAS=ON
cmake --build build --config Release

场景 B：拥有 AMD GPU 注意：请将 gfx1100 替换为你显卡的实际架构名称（可通过 rocminfo 查询）。

CC=/opt/rocm/llvm/bin/clang CXX=/opt/rocm/llvm/bin/clang++ cmake -S . -B build -DLLAMA_HIPBLAS=ON -DAMDGPU_TARGETS=gfx1100
cmake --build build --config Release

场景 C：仅使用 CPU

cmake -S . -B build
cmake --build build --config Release

基本使用

1. 下载模型权重

PowerInfer 需要使用特定的 *.powerinfer.gguf 格式模型（包含模型权重及预测器权重）。推荐从 Hugging Face 下载预转换好的模型。

以 Llama2-7B (ReLU) 为例，使用 huggingface-cli 下载到本地 ReluLLaMA-7B 目录：

huggingface-cli download --resume-download --local-dir ReluLLaMA-7B --local-dir-use-symlinks False PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF

注：国内用户若访问 Hugging Face 困难，可配置镜像源或使用代理加速。

下载完成后，目录结构应包含 .powerinfer.gguf 文件及 activation 统计文件夹。

2. 运行推理

编译完成后，可执行生成的二进制文件进行推理。以下是最简单的命令行交互示例（假设生成的可执行文件位于 build/bin 目录下，具体文件名请参考编译输出，通常为 main 或 server）：

交互式对话示例：

./build/bin/main -m ./ReluLLaMA-7B/relullama-7b-fp16.powerinfer.gguf -p "你好，请介绍一下 PowerInfer。" -n 256

启动本地 API 服务示例：

./build/bin/server -m ./ReluLLaMA-7B/relullama-7b-fp16.powerinfer.gguf --host 0.0.0.0 --port 8080

参数说明：

-m: 指定模型路径。
-p: 输入提示词（Prompt）。
-n: 生成 token 的最大数量。
server: 启动类似 llama.cpp 的 HTTP 服务端，兼容大多数前端界面。

常见问题

如何将 SmallThinker 的 HuggingFace 格式模型转换为 PowerInfer 专用的 .powerinfer.gguf 格式并进行量化？

为什么在显存足够容纳整个模型（如 7B INT4 模型 vs 8GB 显存）时，PowerInfer 的推理速度反而比预期慢？

启用 GPU 分割（gpu split）后推理结果异常或不可用，如何解决？

运行时报错 'No module named powerinfer' 且无法生成 GPU 分割，如何解决 Python 依赖问题？

编译 smallthinker 目录后找不到 llama-quantize 可执行文件，或者量化时报错 'unknown model architecture: smallthinker' 怎么办？

为什么在长文本生成（超过 500 tokens）时速度会急剧下降到 2 tokens/s 左右？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 145.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|2天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent

使用场景

没有 PowerInfer 时

使用 PowerInfer 后

运行环境要求

快速开始

PowerInfer：使用消费级显卡实现快速的大语言模型推理

简要说明

最新消息 🔥

演示 🔥

摘要

特点

开始使用

设置与安装

前置条件

获取代码

构建

模型权重

通过 Hugging Face 下载 PowerInfer GGUF

从原始模型权重 + 预测器权重转换

推理

服务、困惑度评估及其他应用

量化

更多文档

评估

常见问题解答

待办事项

论文与引用

致谢

PowerInfer 快速上手指南

环境准备

系统要求

前置依赖

安装步骤

1. 获取代码与依赖

2. 编译构建

基本使用

1. 下载模型权重

2. 运行推理

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch