PowerInfer
PowerInfer 是一款专为个人电脑设计的高速大语言模型推理引擎,旨在让普通消费级显卡也能流畅运行大型 AI 模型。它主要解决了在本地设备部署大模型时显存受限、推理速度慢的难题,无需依赖昂贵的服务器集群即可实现高效响应。
无论是希望保护数据隐私的开发者、需要快速验证算法的研究人员,还是想在本地体验先进 AI 能力的普通用户,都能从中受益。PowerInfer 的核心技术亮点在于巧妙利用了大模型推理过程中的“激活局部性”特征(即神经元激活遵循幂律分布),通过 CPU 与 GPU 的协同工作,仅动态加载和计算关键参数。这种机制大幅降低了显存占用并提升了计算效率。实测数据显示,在单张 RTX 4090 显卡上运行 400 亿参数的模型时,其速度可比传统方案提升 11 倍以上。此外,它还支持 Windows 及 AMD ROCm 环境,并推出了针对手机端优化的版本,真正推动了高性能 AI 在终端设备上的普及。
使用场景
一位独立开发者试图在配备单张 RTX 4090 显卡的工作站上,本地部署并运行参数量巨大的 Falcon-40B 模型,以构建一个完全离线、数据隐私安全的代码辅助助手。
没有 PowerInfer 时
- 推理速度极慢:由于显存带宽瓶颈,生成代码的速度仅为每秒几个 token,回答延迟高达数秒,严重打断编程思路。
- 硬件门槛过高:为了勉强运行大模型,不得不将量化精度压得过低导致智能程度下降,或者被迫租用昂贵的云端 GPU 集群。
- 资源利用率低:传统推理引擎(如 llama.cpp)无法有效利用神经元激活的稀疏性,导致计算资源浪费,风扇狂转却产出缓慢。
- 交互体验割裂:漫长的等待时间使得“流式输出”失去意义,开发者无法在模型生成过程中实时预览和干预结果。
使用 PowerInfer 后
- 推理速度飞跃:利用激活局部性(Activation Locality)技术,在同等硬件下将 Falcon-40B 的生成速度提升 11 倍,达到流畅的对话级响应。
- 消费级显卡胜任:无需升级硬件或上云,单张消费级 GPU 即可全精度流畅运行 40B 级别大模型,大幅降低部署成本。
- 稀疏计算优化:PowerInfer 智能跳过非活跃神经元,仅计算关键参数,在保证模型智商不降级的前提下极大减少了计算量。
- 实时流式交互:生成的代码几乎随想随出,开发者可以像与真人结对编程一样,实时观察并修正模型输出的每一行代码。
PowerInfer 通过挖掘模型内部的稀疏特性,让普通开发者的本地电脑也能拥有媲美云超算的大模型推理速度,真正实现了高性能 AI 的普惠化。
运行环境要求
- Linux
- Windows
- macOS
- 非必需(支持纯 CPU 运行)
- 若使用 GPU:支持 NVIDIA (需开启 CUBLAS) 或 AMD (需开启 HIPBLAS/ROCm)
- macOS 目前仅支持 CPU,Metal 后端开发中
- 显存大小未明确说明,但设计目标为消费级显卡(如 RTX 4090),通过冷热神经元分离技术降低显存需求以运行大模型
未说明(需容纳冷神经元计算及模型权重,建议大容量内存)

快速开始
PowerInfer:使用消费级显卡实现快速的大语言模型推理
简要说明
PowerInfer 是一款利用激活局部性为您的设备提供服务的 CPU/GPU LLM 推理引擎。
最新消息 🔥
- [2026年1月5日] 我们发布了 Tiiny AI Pocket Lab,这是全球首款袖珍型超级计算机。它可以在本地以 20 tokens/s 的速度运行 GPT-OSS-120B (int4)。该产品已在 CES 2026 上亮相。
- [2025年7月27日] 我们发布了 SmallThinker-21BA3B-Instruct 和 SmallThinker-4BA0.6B-Instruct。同时,我们还发布了一个用于高效 设备端推理 的相应框架。
- [2024年6月11日] 我们非常高兴地推出 PowerInfer-2,这是我们专为智能手机设计的高度优化的推理框架。借助 TurboSparse-Mixtral-47B,其速度达到了惊人的每秒 11.68 个 token,比其他最先进的框架快高达 22 倍。
- [2024年6月11日] 我们很高兴地推出 Turbo Sparse,我们的 TurboSparse 模型旨在实现快速推理。仅花费 10 万美元,我们就将原始的 Mistral 和 Mixtral 模型稀疏化至近 90% 的稀疏度,同时保持卓越性能!对于 Mixtral 级别的模型,我们的 TurboSparse-Mixtral 只激活 4B 个参数!
- [2024年5月20日] 竞赛招募:CCF-TCArch 定制计算挑战赛 2024。CCF TCARCH CCC 是由中国计算机学会(CCF)计算机体系结构技术委员会(TCARCH)组织的全国性竞赛。今年的比赛旨在使用开源 ROCm/HIP 对 PowerInfer 推理引擎进行优化。有关比赛的更多信息,请参见 这里。
- [2024年5月17日] 我们现在为配备 ROCm 的 AMD 设备提供支持。
- [2024年3月28日] 我们很高兴地推出 Bamboo LLM,它结合 PowerInfer 实现了顶级性能和无与伦比的速度!您可以体验 Bamboo-7B Base / DPO。
- [2024年3月14日] 我们支持了 ProSparse Llama 2 (7B/13B),这些 ReLU 模型具有约 90% 的稀疏度,性能与原版 Llama 2 相当(感谢 THUNLP & ModelBest)!
- [2024年1月11日] 我们支持了 Windows 平台上的 GPU 推理!
- [2023年12月24日] 我们发布了 Falcon(ReLU)-40B-FP16 的在线 gradio 演示!
- [2023年12月19日] 我们正式发布了 PowerInfer!
演示 🔥
https://github.com/SJTU-IPADS/PowerInfer/assets/34213478/fe441a42-5fce-448b-a3e5-ea4abb43ba23
在单块 RTX 4090(24G) 上运行 Falcon(ReLU)-40B-FP16 时,PowerInfer 与 llama.cpp 的对比,速度提升了 11 倍!
PowerInfer 和 llama.cpp 都在同一硬件上运行,并充分利用了 RTX 4090 的显存。
[!NOTE] 在线实时演示⚡️
试试我们在 RTX 4090 上托管 Falcon(ReLU)-40B-FP16 的 Gradio 服务器!
实验性质,不提供任何保证🚧
摘要
我们推出了 PowerInfer,这是一款在配备单个消费级显卡的个人电脑(PC)上运行的高速大语言模型(LLM)推理引擎。PowerInfer 设计的核心在于利用 LLM 推理中固有的高 局部性,其特征是神经元激活呈现幂律分布。
这种分布表明,一小部分被称为“热神经元”的神经元会在不同输入之间持续被激活,而大多数“冷神经元”则会根据具体输入而变化。PowerInfer 利用这一洞察,设计了一种 GPU-CPU 混合推理引擎:热激活的神经元被预先加载到 GPU 中以便快速访问,而冷激活的神经元则在 CPU 上进行计算,从而显著降低 GPU 显存需求和 CPU-GPU 数据传输量。此外,PowerInfer 还集成了自适应预测器和神经元感知稀疏算子,进一步优化了神经元激活效率和计算稀疏性。
评估结果显示,在单个 NVIDIA RTX 4090 GPU 上,PowerInfer 在多种 LLM(包括 OPT-175B)上实现了平均 13.20 tokens/s 的令牌生成速率,峰值可达 29.08 tokens/s,仅比顶级服务器级 A100 GPU 的表现低 18%。这显著优于 llama.cpp,速度最高可提升 11.69 倍,同时保持模型精度。
特点
PowerInfer 是一款高速且易于使用的推理引擎,可用于在本地部署 LLM。
PowerInfer 的优势在于:
- 以局部性为核心的设计:利用稀疏激活和“热”/“冷”神经元概念,实现高效的 LLM 推理,确保在较低资源消耗下仍能保持高速。
- CPU/GPU 混合利用:无缝整合 CPU 和 GPU 的内存与计算能力,实现负载均衡和更快的处理速度。
PowerInfer 具有灵活性和易用性,具体体现在:
- 易于集成:兼容流行的 ReLU 稀疏模型。
- 本地部署便捷:专为消费级硬件的本地部署而设计并深度优化,可在单个 GPU 上实现低延迟的 LLM 推理和服务。
- 向后兼容性:尽管与 llama.cpp 不同,您仍然可以像使用 llama.cpp 一样使用大部分
examples/文件,例如服务器模式和批量生成。PowerInfer 也支持使用 llama.cpp 的模型权重进行推理,以确保兼容性,但不会带来性能提升。
您今天就可以使用以下模型与 PowerInfer 配合:
- Falcon-40B
- Llama2 系列
- ProSparse Llama2 系列
- Bamboo-7B
我们已经在以下平台上测试过 PowerInfer:
- 具备 AVX2 指令集的 x86-64 CPU,无论是否配备 NVIDIA 显卡,均在 Linux 系统上运行。
- 具备 AVX2 指令集的 x86-64 CPU,无论是否配备 NVIDIA 显卡,均在 Windows 系统上运行。
- Apple M 芯片(仅 CPU),在 macOS 系统上运行。(由于我们尚未针对 Mac 进行优化,目前性能提升并不显著。)
即将推出的新功能:
- 适用于 macOS 的 Metal 后端,用于稀疏推理。
请参阅我们的 项目看板 以了解我们当前的开发重点。
开始使用
设置与安装
前置条件
PowerInfer 需要以下依赖项:
- CMake (3.17+)
- Python (3.8+) 和 pip (19.3+),用于模型权重转换及自动 FFN 卸载
获取代码
git clone https://github.com/Tiiny-AI/PowerInfer
cd PowerInfer
pip install -r requirements.txt # 安装 Python 辅助工具的依赖
构建
为了构建 PowerInfer,您有两种不同的选项。这些命令应在项目的根目录下执行。
使用 CMake(3.17+):
- 如果您有 NVIDIA 显卡:
cmake -S . -B build -DLLAMA_CUBLAS=ON
cmake --build build --config Release
- 如果您有 AMD 显卡:
# 将 '1100' 替换为您显卡的架构名称,可通过 rocminfo 获取
CC=/opt/rocm/llvm/bin/clang CXX=/opt/rocm/llvm/bin/clang++ cmake -S . -B build -DLLAMA_HIPBLAS=ON -DAMDGPU_TARGETS=gfx1100
cmake --build build --config Release
- 如果您只有 CPU:
cmake -S . -B build
cmake --build build --config Release
模型权重
PowerInfer 模型以基于 GGUF 格式的特殊格式 PowerInfer GGUF 存储,包含 LLM 权重和预测器权重。
通过 Hugging Face 下载 PowerInfer GGUF
您可以在以下 Hugging Face 仓库中获取 .powerinfer.gguf 格式的 PowerInfer GGUF 权重,以及用于“热点”神经元卸载的模型激活统计信息。
| 基础模型 | PowerInfer GGUF |
|---|---|
| LLaMA(ReLU)-2-7B | PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF |
| LLaMA(ReLU)-2-13B | PowerInfer/ReluLLaMA-13B-PowerInfer-GGUF |
| Falcon(ReLU)-40B | PowerInfer/ReluFalcon-40B-PowerInfer-GGUF |
| LLaMA(ReLU)-2-70B | PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF |
| ProSparse-LLaMA-2-7B | PowerInfer/ProSparse-LLaMA-2-7B-GGUF |
| ProSparse-LLaMA-2-13B | PowerInfer/ProSparse-LLaMA-2-13B-GGUF |
| Bamboo-base-7B 🌟 | PowerInfer/Bamboo-base-v0.1-gguf |
| Bamboo-DPO-7B 🌟 | PowerInfer/Bamboo-DPO-v0.1-gguf |
我们建议使用 huggingface-cli 下载整个模型仓库。例如,以下命令会将 PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF 下载到 ./ReluLLaMA-7B 目录中。
huggingface-cli download --resume-download --local-dir ReluLLaMA-7B --local-dir-use-symlinks False PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF
因此,PowerInfer 可以自动利用以下目录结构实现功能完整的模型卸载:
.
├── *.powerinfer.gguf (未量化 PowerInfer 模型)
├── *.q4.powerinfer.gguf (如果可用,则为 INT4 量化 PowerInfer 模型)
├── activation (用于细粒度 FFN 卸载的已分析激活统计信息)
│ ├── activation_x.pt (第 x 层的已分析激活统计信息)
│ └── ...
├── *.[q4].powerinfer.gguf.generated.gpuidx (运行时为相应模型生成的 GPU 索引)
从原始模型权重 + 预测器权重转换
Hugging Face 对单个模型权重的大小限制为 50GiB。对于 ≥ 40B 的未量化模型,您可以使用从 Hugging Face 获取的原始模型权重和预测器权重来转换为 PowerInfer GGUF。
| 基础模型 | 原始模型 | 预测器 |
|---|---|---|
| LLaMA(ReLU)-2-7B | SparseLLM/ReluLLaMA-7B | PowerInfer/ReluLLaMA-7B-Predictor |
| LLaMA(ReLU)-2-13B | SparseLLM/ReluLLaMA-13B | PowerInfer/ReluLLaMA-13B-Predictor |
| Falcon(ReLU)-40B | SparseLLM/ReluFalcon-40B | PowerInfer/ReluFalcon-40B-Predictor |
| LLaMA(ReLU)-2-70B | SparseLLM/ReluLLaMA-70B | PowerInfer/ReluLLaMA-70B-Predictor |
| ProSparse-LLaMA-2-7B | SparseLLM/ProSparse-LLaMA-2-7B | PowerInfer/ProSparse-LLaMA-2-7B-Predictor |
| ProSparse-LLaMA-2-13B | SparseLLM/ProSparse-LLaMA-2-13B | PowerInfer/ProSparse-LLaMA-2-13B-Predictor |
| Bamboo-base-7B 🌟 | PowerInfer/Bamboo-base-v0.1 | PowerInfer/Bamboo-base-v0.1-predictor |
| Bamboo-DPO-7B 🌟 | PowerInfer/Bamboo-DPO-v0.1 | PowerInfer/Bamboo-DPO-v0.1-predictor |
您可以使用以下命令将原始模型权重和预测器权重转换为 PowerInfer GGUF:
# 确保已执行 `pip install -r requirements.txt`
python convert.py --outfile /PATH/TO/POWERINFER/GGUF/REPO/MODELNAME.powerinfer.gguf /PATH/TO/ORIGINAL/MODEL /PATH/TO/PREDICTOR
# python convert.py --outfile ./ReluLLaMA-70B-PowerInfer-GGUF/llama-70b-relu.powerinfer.gguf ./SparseLLM/ReluLLaMA-70B ./PowerInfer/ReluLLaMA-70B-Predictor
出于同样的原因,我们建议在转换后保持与 PowerInfer GGUF 仓库相同的目录结构。
将原始模型转换为稠密 GGUF 模型(与 llama.cpp 兼容)
python convert-dense.py --outfile /PATH/TO/DENSE/GGUF/REPO/MODELNAME.gguf /PATH/TO/ORIGINAL/MODEL
# python convert-dense.py --outfile ./Bamboo-DPO-v0.1-gguf/bamboo-7b-dpo-v0.1.gguf --outtype f16 ./Bamboo-DPO-v0.1
请注意,生成的稠密 GGUF 模型可能无法与 llama.cpp 正常工作,因为我们修改了激活函数(针对 ReluLLaMA 和 Prosparse 模型),或模型架构(针对 Bamboo 模型)。由 convert-dense.py 生成的稠密 GGUF 模型可用于 PowerInfer 的稠密推理模式,但可能无法与 llama.cpp 正常配合使用。
推理
对于仅使用 CPU 或 CPU-GPU 混合推理且充分利用所有显存的情况,您可以按照以下说明运行 PowerInfer:
./build/bin/main -m /PATH/TO/MODEL -n $output_token_count -t $thread_num -p $prompt
# 例如:./build/bin/main -m ./ReluFalcon-40B-PowerInfer-GGUF/falcon-40b-relu.q4.powerinfer.gguf -n 128 -t 8 -p "Once upon a time"
# 对于 Windows:.\build\bin\Release\main.exe -m .\ReluFalcon-40B-PowerInfer-GGUF\falcon-40b-relu.q4.powerinfer.gguf -n 128 -t 8 -p "Once upon a time"
如果您希望限制 GPU 的显存使用量:
./build/bin/main -m /PATH/TO/MODEL -n $output_token_count -t $thread_num -p $prompt --vram-budget $vram_gb
# 例如:./build/bin/main -m ./ReluLLaMA-7B-PowerInfer-GGUF/llama-7b-relu.powerinfer.gguf -n 128 -t 8 -p "Once upon a time" --vram-budget 8
# 对于 Windows:.\build\bin\Release\main.exe -m .\ReluLLaMA-7B-PowerInfer-GGUF\llama-7b-relu.powerinfer.gguf -n 128 -t 8 -p "Once upon a time" --vram-budget 8
在 CPU-GPU 混合推理模式下,PowerInfer 会自动将所有稠密激活块卸载到 GPU 上,并在可能的情况下拆分 FFN 并将其卸载到 GPU。
稠密推理模式(有限支持)
如果您想使用 PowerInfer 推理家族中的稠密变体,可以像使用 llama.cpp 一样操作:
./build/bin/main -m /PATH/TO/DENSE/MODEL -n $output_token_count -t $thread_num -p $prompt -ngl $num_gpu_layers
# 例如:./build/bin/main -m ./Bamboo-base-v0.1-gguf/bamboo-7b-v0.1.gguf -n 128 -t 8 -p "Once upon a time" -ngl 12
其他 examples/ 目录下的示例,如 server 和 batched_generation,也是如此。请注意,稠密推理模式并非适用于所有模型的“兼容模式”。在此模式下,我们为了匹配我们的模型家族,修改了激活函数(针对 ReluLLaMA 和 Prosparse 模型)。
服务、困惑度评估及其他应用
PowerInfer 支持与 llama.cpp 相同的服务和批量生成指令。通常,您可以使用与 llama.cpp 相同的命令,只是将 -ngl 参数替换为 PowerInfer 的 --vram-budget。请参阅每个 examples/ 目录中的详细说明。例如:
量化
PowerInfer 针对 INT4(Q4_0)模型优化了量化支持。您可以使用以下指令对 PowerInfer GGUF 模型进行量化:
./build/bin/quantize /PATH/TO/MODEL /PATH/TO/OUTPUT/QUANTIZED/MODEL Q4_0
# 例如:./build/bin/quantize ./ReluFalcon-40B-PowerInfer-GGUF/falcon-40b-relu.powerinfer.gguf ./ReluFalcon-40B-PowerInfer-GGUF/falcon-40b-relu.q4.powerinfer.gguf Q4_0
# 对于 Windows:.\build\bin\Release\quantize.exe .\ReluFalcon-40B-PowerInfer-GGUF\falcon-40b-relu.powerinfer.gguf .\ReluFalcon-40B-PowerInfer-GGUF\falcon-40b-relu.q4.powerinfer.gguf Q4_0
然后您就可以使用量化后的模型,按照上述相同的方法进行 PowerInfer 推理。
更多文档
评估
我们在单块 RTX 4090(24G)上,使用一系列 FP16 ReLU 模型,在输入长度为 64 的情况下,对 PowerInfer 与 llama.cpp 进行了对比评估,结果如下所示。PowerInfer 在 Falcon 40B 上实现了最高 11 倍的加速,在 Llama 2 70B 上实现了最高 3 倍的加速。
X 轴表示输出长度,Y 轴表示相对于 llama.cpp 的加速倍数。每个柱状图上方的数字表示端到端生成速度(总提示时间 + 生成时间 / 总生成令牌数,单位为 tokens/s)。
我们还在单块 RTX 2080Ti(11G)上,使用 INT4 ReLU 模型,在输入长度为 8 的情况下进行了评估,结果以相同的方式展示。PowerInfer 在 Falcon 40B 上实现了最高 8 倍的加速,在 Llama 2 70B 上实现了最高 3 倍的加速。

更多评估细节,请参阅我们的论文。
常见问题解答
如果遇到
CUDA_ERROR_OUT_OF_MEMORY错误怎么办?- 您可以尝试使用
--reset-gpu-index参数来重建该模型的 GPU 索引,以避免任何过时的缓存。 - 由于我们目前的实现方式,模型卸载可能不如预期准确。您可以尝试使用略低的
--vram-budget值,或使用--disable-gpu-index来禁用 FFN 卸载。
- 您可以尝试使用
PowerInfer 是否支持 Mistral、原始 Llama、通义千问等模型?
- 目前我们仅支持具有 ReLU/ReGLU/平方 ReLU 激活函数的模型。因此,我们暂时不支持这些模型。值得一提的是,一篇论文表明,使用 ReLU/ReGLU 激活函数对收敛性和性能的影响可以忽略不计。
为什么我们当前的 ReLU 模型,尤其是 70B 模型,在性能指标上出现了明显下降?
- 与 LLM 训练通常需要约 2T 个标记不同,我们的模型仅使用了 5B 个标记进行微调。这种不足的再训练导致模型无法恢复其原有的性能。我们正在积极努力更新到更强大的模型,请继续关注。
如果……
- 欢迎提出任何问题!请随时创建一个议题,并附上您的运行环境和运行参数。我们将尽最大努力帮助您。
待办事项
我们将按照以下顺序发布代码和数据,请持续关注!
- 发布 PowerInfer 核心代码,支持 Llama-2 和 Falcon-40B。
- 支持
Mistral-7B(Bamboo-7B) - 支持 Windows 系统
- 支持 text-generation-webui
- 发布困惑度评估代码
- 支持 Mac 上的 Metal 加速
- 发布 OPT 模型相关代码
- 发布预测器训练代码
- 支持 FFN 网络的在线拆分
- 支持多 GPU 运行
论文与引用
更多技术细节请参阅我们的论文。
如果您认为 PowerInfer 对您的项目或研究有帮助或相关性,请引用我们的论文:
@misc{song2023powerinfer,
title={PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU},
author={Yixin Song and Zeyu Mi and Haotong Xie and Haibo Chen},
year={2023},
eprint={2312.12456},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
致谢
我们感谢 ggml 易于修改的算子库以及 llama.cpp 提供的执行运行时。同时,我们也感谢 THUNLP 对基于 ReLU 的稀疏模型的支持。此外,我们还受益于 Deja Vu 的研究成果,这些工作为 PowerInfer 提供了灵感。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
