shapash

3.2k 374 非常简单 1 次阅读今天Apache-2.0开发框架

AI 解读由 AI 自动生成，仅供参考

Shapash 是一款专为提升机器学习模型可解释性而设计的 Python 开源库，旨在让复杂的算法决策变得对所有人都清晰易懂。它主要解决了黑盒模型难以理解、技术结论难以向非专业人士传达的痛点，帮助团队构建更可靠、透明的 AI 系统。

无论是数据科学家、分析师还是业务决策者，都能通过 Shapash 轻松上手。其核心亮点在于能够一键生成交互式 Web 应用，用户可以在其中直观地查看特征间的相互作用，并在“局部解释”（单个样本的预测原因）与“全局解释”（模型整体逻辑）之间无缝切换。此外，Shapash 还能自动生成包含关键信息的综合审计报告，极大便利了模型合规性审查。

在技术兼容性方面，Shapash 表现卓越，广泛支持 Catboost、Xgboost、LightGBM、Sklearn 集成模型、线性模型及 SVM 等多种主流算法，适用于回归、二分类及多分类等各类任务。通过将晦涩的技术指标转化为带有清晰标签的可视化图表，Shapash 架起了技术与业务之间的沟通桥梁，让模型结果不仅可信，更易被共享和理解。

使用场景

某金融风控团队正在开发一套信贷审批模型，需要向非技术背景的业务部门和合规审计人员解释为何拒绝特定客户的贷款申请。

没有 shapash 时

数据科学家只能输出复杂的 SHAP 数值矩阵或晦涩的代码图表，业务人员完全看不懂特征对结果的具体影响。
面对“为什么拒绝这位客户”的质询，团队需手动编写大量临时代码来提取单个案例的解释，响应速度极慢且容易出错。
缺乏统一的可视化界面，全局模型逻辑（如哪些特征整体最重要）与局部个案分析割裂，难以在会议中直观展示。
合规审计报告需要人工拼凑截图和数据，格式不统一，难以证明模型决策的透明度和公平性。
不同利益相关者（开发、业务、法务）对模型理解存在巨大鸿沟，导致模型上线审批流程反复受阻。

使用 shapash 后

shapash 自动生成带有清晰中文标签的可视化图表，业务人员能直接看懂“收入”和“负债率”如何具体影响了审批结果。
通过内置的 Webapp，团队成员可实时输入任意客户 ID，秒级获取该个案的详细决策依据，无需再写一行解释代码。
在同一界面中无缝切换全局视角（整体模型行为）和局部视角（单个预测解释），让汇报演示流畅且具有说服力。
shapash 一键生成包含模型概览、特征贡献及稳定性分析的综合报告，直接满足合规审计对可解释性的严格要求。
透明的交互界面消除了技术黑盒，让业务和法务团队建立信任，大幅缩短了模型从开发到投产的周期。

shapash 将复杂的算法逻辑转化为每个人都能理解的语言，真正实现了机器学习模型的透明化与可信落地。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该工具是一个用于解释机器学习模型的 Python 库，支持回归、二分类和多分类问题。兼容多种模型（如 Catboost, Xgboost, LightGBM, Sklearn 等）。主要功能包括生成交互式 Web 应用和独立的 HTML 审计报告。README 中未明确列出具体的操作系统、GPU、内存需求及依赖库的具体版本号，通常此类库在主流操作系统上均可运行，且主要依赖 CPU 进行计算。

python3.6+

shap

plotly

dash

pandas

numpy

scikit-learn

catboost

xgboost

lightgbm

快速开始

shapash-logo

🔍 概述

Shapash 是一个 Python 库，旨在 让机器学习对所有人来说都可解释、易理解。它提供了多种可视化工具，配有清晰明确的标签，便于所有人快速掌握。

借助 Shapash，您可以生成一个 Web 应用程序，帮助简化对 模型特征之间交互关系 的理解，并实现 局部与全局解释性之间的无缝切换。通过这个 Web 应用程序，数据科学家可以轻松地理解自己的模型，并将结果 分享给数据专家和非专业人士。

此外，Shapash 还有助于数据科学审计工作，能够以 全面报告的形式呈现 关于任何模型和数据的 有价值信息。

Shapash 适用于回归、二分类和多分类问题。它 兼容众多模型，包括 Catboost、XGBoost、LightGBM、Scikit-learn 集成模型、线性模型以及 SVM 等。对于其他模型，也有集成 Shapash 的解决方案；更多详情请参阅这里。

[!NOTE] 如果您想给我们反馈：反馈表单

Shapash 应用演示

🌱 文档与资源

🎉 有什么新功能？

版本	新特性	描述
2.3.x	额外的数据集列新演示文章	在Web应用中：向数据集中添加目标列和误差列，并可添加模型之外的特征，以提供更多筛选选项
2.3.x	身份卡新演示文章	在Web应用中：新增身份卡，用于汇总所选样本的信息
2.2.x	样本挑选文章	Web应用中新增样本挑选标签页。图表展示了“真实值 vs 预测值”
2.2.x	数据集筛选	Web应用中新增数据筛选标签页。此外，Web应用还进行了多项改进：添加副标题、标签以及屏幕布局调整
2.0.x	Shapash重构	重构了compile方法和init方法的属性。为新的后端实现了重构
1.7.x	颜色可变化	允许用户使用自定义调色板来生成符合自身设计风格的输出
1.6.x	可解释性质量指标文章	为了增强对可解释性方法的信心，您可以使用3个指标来评估可解释性的相关性：稳定性、一致性和紧凑性
1.4.x	特征分组演示	现在可以将具有共同属性的特征归为一组。如果您的模型包含大量特征，此功能会非常有用。
1.3.x	Shapash报告演示	一份独立的HTML报告，可作为审计文档的基础。

🔥 功能特性

展示清晰易懂的结果：图表和输出对每个特征及其取值都使用了明确的标签

允许数据科学家通过一个Web应用快速理解其模型，轻松在全局与局部可解释性之间切换，并了解不同特征的贡献情况：Shapash-Monitor在线演示
总结并导出局部解释

Shapash 提供简洁明了的局部解释，使任何背景的数据用户都能通过总结性和明确的解释来理解监督模型的单个预测结果。

使用多种指标评估可解释性的质量
轻松与非数据领域的用户分享和讨论结果
可根据解释性特征、附加特征以及正确或错误的预测结果进行筛选，选择子集以深入分析可解释性。挑选示例以理解机器学习模型
部署项目中的可解释性部分：从模型训练到部署（API 或批处理模式）
通过生成项目的独立 HTML 报告，为模型的可审计性做出贡献。报告示例我们相信，这份报告将为模型和数据的审计提供有力支持，从而提升 AI 治理水平。数据科学家现在可以向任何对项目感兴趣的人提供一份记录其工作各方面的文档，作为审计报告的基础。该文档可在团队内部（内部审计、DPO、风险、合规等部门）轻松共享。

⚙️ Shapash 的工作原理

Shapash 是一个用于模型可解释性相关库的叠加型工具包。它使用 Shap 或 Lime 作为后端来计算特征贡献。 Shapash 基于构建机器学习模型所需的各个步骤，使结果更加易于理解。

diagram

Shapash 适用于回归、二分类或多分类问题。
它兼容多种模型：Catboost、Xgboost、LightGBM、Sklearn Ensemble、线性模型、SVM。

如果您的模型不在兼容列表中，也可以将使用 Shap 或其他方法计算出的局部贡献提供给 Shapash。这里有一个如何向 Shapash 提供贡献的示例。为了进一步完善这一用法，已创建了一个问题。

Shapash 可以使用 category-encoders 对象、sklearn ColumnTransformer，或者直接使用特征字典。

Category_encoder：OneHotEncoder、OrdinalEncoder、BaseNEncoder、BinaryEncoder、TargetEncoder
Sklearn ColumnTransformer：OneHotEncoder、OrdinalEncoder、StandardScaler、QuantileTransformer、PowerTransformer

🛠 安装说明

Shapash 适用于 Python 3.9 至 3.12 版本。可通过 pip 进行安装：

pip install shapash

若需生成 Shapash 报告，则需要额外的依赖项。您可以通过以下命令安装这些依赖：

pip install shapash[report]

如果您遇到兼容性问题，请参阅 Shapash 文档中的相应章节此处。

🕐 快速入门

展示结果的4个步骤：

第1步：声明 SmartExplainer 对象

在 compile 方法中有一个必填参数：Model 您可以在此处声明 features_dict，以指定要显示的标签

from shapash import SmartExplainer

xpl = SmartExplainer(
    model=regressor,
    features_dict=house_dict,  # 可选参数
    preprocessing=encoder,  # 可选：compile 步骤可以使用 inverse_transform 方法
    postprocessing=postprocess,  # 可选：参见教程中的后处理部分
)

第2步：编译数据集，…

在 compile 方法中有一个必填参数：Dataset

xpl.compile(
    x=xtest,
    y_pred=y_pred,  # 可选：用于您自己的预测（默认为 model.predict）
    y_target=yTest,  # 可选：允许显示真实值与预测值的对比
    additional_data=xadditional,  # 可选：Web 应用程序的附加特征数据集
    additional_features_dict=features_dict_additional,  # 可选：附加数据的字典
)

第3步：展示输出

有多种输出和图表可供使用。例如，您可以启动 Web 应用程序：

app = xpl.run_app()

Shapash-Monitor 实时演示

第4步：生成 Shapash 报告

此步骤允许您使用数据集的不同划分以及所使用的指标，生成项目的独立 HTML 报告：

xpl.generate_report(
    output_file="path/to/output/report.html",
    project_info_file="path/to/project_info.yml",
    x_train=xtrain,
    y_train=ytrain,
    y_test=ytest,
    title_story="房屋价格报告",
    title_description="""本文档是 Kaggle 房屋价格教程项目的数据科学报告。
        它使用 Shapash 库生成。""",
    metrics=[{"name": "MSE", "path": "sklearn.metrics.mean_squared_error"}],
)

报告示例

第5步：从训练到部署：SmartPredictor 对象

Shapash 提供了一个 SmartPredictor 对象，用于在运营需求中部署局部解释的摘要信息。这是一个专门用于部署的对象，比 SmartExplainer 更轻量，并增加了额外的一致性检查。 SmartPredictor 可以通过 API 或批处理模式使用。它提供预测、详细或汇总的局部可解释性，并采用适当的措辞。

predictor = xpl.to_smartpredictor()

请参阅教程部分，了解如何使用 SmartPredictor 对象。

📖 教程

此 GitHub 仓库提供了许多教程，帮助您轻松上手 Shapash。

概述

图表和绘图

使用编码器和字典的不同方式

通过后处理展示数据

在 compile 方法中使用 postprocessing 参数

使用不同的后端

评估可解释性的质量

利用 稳定性、一致性 和 紧凑性 指标建立对可解释性方法的信心

生成项目报告

使用 generate_report 生成项目的独立 HTML 报告

通过 Shapash Web 应用程序分析您的模型

添加模型之外的特征，以获得更多探索选项

🤝 贡献者

🏆 奖项

Shapash 快速上手指南

Shapash 是一个旨在让机器学习模型对所有人都可解释的 Python 库。它提供清晰的可视化图表和标签，支持生成 Web 应用以便在局部和全局可解释性之间无缝切换，并能为回归、二分类及多分类问题生成审计报告。

环境准备

操作系统: Linux, macOS, Windows
Python 版本: 3.8 - 3.11 (推荐 3.9+)
前置依赖:
- 核心依赖：pandas, numpy, scikit-learn, plotly, dash
- 支持的模型库（按需安装）：xgboost, lightgbm, catboost, shap
浏览器: 推荐使用 Chrome 或 Firefox 以获取最佳 WebApp 体验。

安装步骤

1. 基础安装

使用 pip 安装最新稳定版：

pip install shapash

2. 国内加速安装（推荐）

如果您在中国大陆，建议使用清华源或阿里源以加快下载速度：

pip install shapash -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 安装完整依赖（可选）

如果您需要使用所有支持的模型（如 CatBoost, XGBoost 等），建议安装完整依赖包：

pip install "shapash[all]" -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

以下是最简单的使用流程：训练一个模型，初始化 Shapash，并启动交互式 Web 应用。

1. 准备数据与模型

首先导入必要的库并训练一个简单的模型（以 sklearn 为例）：

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from shapash import SmartExplainer

# 加载示例数据
url = "https://raw.githubusercontent.com/pymetrics/audit-ai/master/data/compas.csv"
data = pd.read_csv(url)

# 数据预处理（简化版）
features = ['age', 'juv_fel_count', 'juv_misd_count', 'juv_other_count', 'priors_count']
X = data[features]
y = data['two_year_recid']

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = RandomForestClassifier(n_estimators=10, random_state=42)
model.fit(X_train, y_train)

2. 初始化 Shapash 解释器

编译解释器以计算特征贡献度。features_dict 用于将列名映射为更易读的中文或描述性标签（可选但推荐）。

# 定义特征字典（将英文列名映射为易读标签）
features_dict = {
    'age': '年龄',
    'juv_fel_count': '少年重罪记录数',
    'juv_misd_count': '少年轻罪记录数',
    'juv_other_count': '其他少年记录数',
    'priors_count': '前科数量'
}

# 初始化 SmartExplainer
xpl = SmartExplainer(model=model, features_dict=features_dict)

# 编译解释器
# x_pred: 测试集预测概率 (对于分类问题)
# x_init: 测试集原始特征数据
xpl.compile(
    x=X_test,
    y_pred=model.predict_proba(X_test)[:, 1] 
)

3. 启动 Web 应用

运行以下命令启动本地 Web 服务器，自动在浏览器中打开交互式仪表盘：

xpl.run_app()

操作提示：

启动后，终端会显示访问地址（通常为 http://127.0.0.1:8050/）。
在 Web 界面中，您可以查看全局特征重要性、筛选特定样本、分析单个预测的原因（局部解释），以及导出分析报告。

4. (可选) 生成静态审计报告

如果不需启动 Web 应用，可直接生成独立的 HTML 报告用于审计：

xpl.to_html(path='shapash_report.html', title='模型可解释性报告')

版本历史

v2.8.12026/01/30

v2.7.12024/10/11

v2.7.02024/10/10

v2.6.02024/07/04

v2.5.12024/06/24

v2.8.02026/01/20

v2.7.102025/07/24

v2.7.92025/03/20

v2.7.82025/02/13

v2.7.72025/02/11

v2.7.62025/01/10

v2.7.52024/12/09

v2.7.42024/10/25

v2.7.32024/10/24

v2.7.22024/10/17

v2.5.02024/05/06

v2.4.32024/03/12

v2.4.22024/02/08

v2.4.12023/12/08

v2.4.02023/12/01

常见问题

interactions_plot 生成的图表中，Y 轴（Shap 交互值）是如何计算的？为什么数值看起来不对？

如何在 ColumnTransformer 中使用 Imputer（如 SimpleImputer）进行预处理？

Shapash 是否支持 Python 3.10？

生成报告时遇到 "ValueError: The condensed distance matrix must contain only finite values" 错误怎么办？

在使用 XGBoost 的生存分析模型（objective='survival:cox'）时，为什么编译 SmartExplainer 会报错？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 154.3k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|3天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|4天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架