giskard-oss

5.3k 433 非常简单 1 次阅读今天Apache-2.0语言模型开发框架Agent其他

AI 解读由 AI 自动生成，仅供参考

Giskard 是一款专为大语言模型（LLM）智能体设计的开源评估与测试库。它致力于解决 AI 系统在开发迭代中面临的输出不确定性难题，帮助开发者高效检测回归错误、验证检索增强生成（RAG）的回答质量，并确保内容符合安全规范。

不同于传统针对确定性代码的单元测试，Giskard 特别适配 AI 非确定性输出的特性，支持从简单断言到"LLM 作为裁判”等多种评估模式。其最新的 v3 版本经过重构，采用模块化架构，不仅去除了冗余依赖以提升运行效率，还原生支持异步操作，能够灵活包裹各类黑盒智能体或多步骤流水线。目前，核心组件 Giskard Checks 已可用，而针对提示词注入和数据泄露的红队扫描功能也在紧锣密鼓地开发中。

这款工具非常适合需要构建高可靠性 AI 应用的开发者、算法工程师及研究人员使用。无论是希望快速搭建自动化测试流程，还是需要对复杂的多轮对话系统进行深度压力测试，Giskard 都能提供轻量且动态的解决方案，助力团队在保障安全的前提下加速产品落地。

使用场景

某金融科技公司正在开发一款基于大语言模型的智能理财顾问 Agent，该助手需要多轮对话理解用户风险偏好，并依据实时检索的财经新闻（RAG）提供投资建议。

没有 giskard-oss 时

回归测试困难：每次更新模型或提示词后，团队只能依靠人工抽查少量对话，难以发现系统在特定场景下出现的隐性能力倒退。
幻觉无法量化：Agent 偶尔会编造不存在的财经数据，但缺乏自动化手段来验证回答是否严格基于检索到的上下文，导致合规风险高。
安全漏洞隐蔽：面对复杂的“红队攻击”（如诱导性提示注入），传统单元测试无法覆盖非确定性输出，恶意绕过策略往往在生产环境才被发现。
评估效率低下：构建多轮对话测试集耗时耗力，且难以模拟真实用户动态变化的提问逻辑，测试覆盖率长期不足。

使用 giskard-oss 后

自动化回归监测：利用 giskard-oss 的场景 API 建立自动化评估流水线，每次代码提交即自动运行数百个测试用例，瞬间定位性能衰退点。
精准幻觉拦截：通过内置的 RAG 检查模块，自动判定回答是否“有据可依”，将事实性错误率在上线前降低 90% 以上。
主动漏洞扫描：调用其动态红队测试功能，自动生成对抗性提示攻击 Agent，提前修复提示注入和数据泄露隐患。
高效多轮评测：借助异步架构和轻量级设计，快速生成并执行复杂的多轮对话测试，大幅缩短从开发到安全上线的周期。

giskard-oss 将原本依赖人工经验的模糊评估，转化为可量化、自动化的质量门禁，确保智能代理在复杂交互中既安全又可靠。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesGiskard v3 是一个轻量级、模块化且优先支持异步（Async-first）的库，专为动态多轮代理测试设计。v3 版本移除了重型依赖以提高效率。注意：v3 目前处于 Alpha 阶段，其漏洞扫描和 RAG 评估功能仍依赖尚未完全发布的模块或需参考 v2 版本；v2 版本已不再积极维护。运行异步脚本时需使用 asyncio.run() 包裹。可选遥测数据收集，不包含提示词或模型输出内容。

python3.12+

giskard

giskard-checks

openai

快速开始

giskardlogo

针对代理型系统的评估、红队测试与测试用例生成

模块化、轻量级、动态且以异步优先

文档 • 官网 • 社区

[!IMPORTANT] Giskard v3 是一次全新重写，专为 AI 代理的动态多轮测试而设计。此版本去除了繁重依赖以提升效率，同时引入了更强大的 AI 漏洞扫描器以及增强的 RAG 评估能力。目前，漏洞扫描器和 RAG 评估仍依赖于 Giskard v2。 Giskard v2 仍然可用，但已不再积极维护。 关注进展 → 阅读 v3 公告 · 路线图

安装

pip install giskard

需要 Python 3.12 或更高版本。

遥测： 基于 giskard-core 构建的库（包括 giskard-checks）可能会发送 可选的聚合使用情况分析数据，以帮助改进产品。其中不包含任何提示、模型输出或场景文本。详情请参阅收集的内容及如何选择退出。

Giskard 是一个用于 测试和评估代理型系统 的开源 Python 库。v3 架构由一组模块化的专注包组成——每个包仅包含其所需的依赖项——从头开始构建，可用于封装任何对象：LLM、黑盒代理或多步骤流水线。

状态	包名	描述
✅ Alpha	`giskard-checks`	测试与评估 — 场景 API、内置检查、LLM 作为评判者
🚧 进行中	`giskard-scan`	代理漏洞扫描器 — 红队测试、提示注入、数据泄露（v2 Scan 的继任者）
📋 计划中	`giskard-rag`	RAG 评估与合成数据生成（v2 RAGET 的继任者）

Giskard Checks — 创建并应用评估来测试代理

pip install giskard-checks

Giskard Checks 是一个轻量级库，用于创建评估（evals），以测试基于 LLM 的系统——从简单的断言到 LLM 作为评判者的评估。与传统的单元测试不同，evals 专为 非确定性输出 设计，即相同的输入可能产生不同的有效响应。

使用 Giskard Checks 可以：

捕捉回归问题 — 验证系统在更改后仍能正常运行
验证 RAG 质量 — 检查答案是否基于检索到的上下文
执行安全规则 — 确保输出符合您的内容政策
评估多轮代理 — 测试完整的对话，而不仅仅是单次交互

内置评估包括字符串匹配、比较、正则表达式、语义相似度，以及 LLM 作为评判者的检查（“Groundedness”、“Conformity”、“LLMJudge”）。

快速入门

from openai import OpenAI
from giskard.checks import Scenario, Groundedness

client = OpenAI()

def get_answer(inputs: str) -> str:
    response = client.chat.completions.create(
        model="gpt-5-mini",
        messages=[{"role": "user", "content": inputs}],
    )
    return response.choices[0].message.content

scenario = (
    Scenario("test_dynamic_output")
    .interact(
        inputs="法国的首都是哪里？",
        outputs=get_answer,
    )
    .check(
        Groundedness(
            name="答案有据可依",
            answer_key="trace.last.outputs",
            context="法国是西欧的一个国家，其首都为巴黎。",
        )
    )
)

result = await scenario.run()
result.print_report()

run() 方法是异步的。在脚本中，请使用 asyncio.run() 封装它。有关 Suites、LLMJudge、多轮场景等更多内容，请参阅完整文档此处。

寻找 Giskard v2 吗？

Giskard v2 包含 Scan（自动漏洞检测）和 RAGET（用于 ML 模型和 LLM 应用的 RAG 评估测试集生成）。这些功能在 v3 中不可用。

pip install "giskard[llm]>2,<3"

Scan — 自动检测性能、偏差及安全问题

将您的模型封装起来并运行扫描：

import giskard
import pandas as pd

# 将 my_llm_chain 替换为您实际的 LLM 链或模型推理逻辑
def model_predict(df: pd.DataFrame):
    """该函数接受一个 DataFrame，并需返回每行对应的一条输出结果。"""
    return [my_llm_chain.run({"query": question}) for question in df["question"]]

giskard_model = giskard.Model(
    model=model_predict,
    model_type="text_generation",
    name="我的 LLM 应用程序",
    description="一个问答助手",
    feature_names=["question"],
)

scan_results = giskard.scan(giskard_model)
display(scan_results)

Scan 示例

RAGET — 为 RAG 应用生成评估数据集

从您的知识库中自动生成问题、参考答案和上下文：

import pandas as pd
from giskard.rag import generate_testset, KnowledgeBase

# 加载你的知识库文档
df = pd.read_csv("path/to/your/knowledge_base.csv")
knowledge_base = KnowledgeBase.from_pandas(df, columns=["column_1", "column_2"])

testset = generate_testset(
    knowledge_base,
    num_questions=60,
    language='en',
    agent_description="X公司的客户支持聊天机器人",
)

RAGET 示例

完整 v2 文档

👋 社区

我们欢迎来自 AI 社区的贡献！请阅读这份指南开始参与，并加入我们在 Discord 上活跃的社区。

关注项目进展并分享反馈： v3 公告 · 路线图

🌟 给项目点个星，这有助于让更多人发现我们的项目，也能激励我们继续打造优秀的开源工具！🌟

❤️ 如果您觉得我们的工作很有价值，请考虑在 GitHub 上赞助我们。通过每月赞助，您可以获得赞助者徽章、在本 README 中展示贵公司，并让您的问题报告优先处理。如果您希望我们参与咨询项目、举办研讨会或在贵公司进行演讲，我们也提供一次性赞助服务。

💚 当前赞助商

我们感谢以下公司对我们的项目提供的每月捐赠：

Lunary

Biolevate

Giskard OSS 快速上手指南

Giskard 是一个开源 Python 库，专为测试和评估智能体系统（Agentic Systems）而设计。v3 版本经过重构，采用模块化架构，专注于动态、多轮次的 AI 智能体测试，具有轻量级和异步优先的特点。

环境准备

操作系统：Linux, macOS, Windows
Python 版本：要求 Python 3.12+
依赖管理：建议使用 pip 或 poetry 进行包管理
网络要求：部分功能（如 LLM-as-judge）需要访问外部大模型 API（如 OpenAI）

注意：Giskard v3 目前处于 Alpha 阶段，主要提供 giskard-checks 模块。原有的漏洞扫描（Scan）和 RAG 测试集生成（RAGET）功能在 v2 版本中可用，但 v2 已不再积极维护。

安装步骤

1. 安装核心库

使用 pip 安装基础包：

pip install giskard

2. 安装测试评估模块（推荐）

若需使用场景测试、内置检查项及 LLM 评判功能，请安装 giskard-checks：

pip install giskard-checks

国内加速提示：如果下载速度较慢，可使用国内镜像源安装：
pip install giskard-checks -i https://pypi.tuna.tsinghua.edu.cn/simple

3. (可选) 安装旧版功能

如果您需要使用自动漏洞扫描或 RAG 测试集生成功能，需安装 v2 版本：

pip install "giskard[llm]>2,<3"

基本使用

以下示例展示如何使用 giskard-checks 创建一个简单的评估场景，测试 LLM 的回答是否基于给定的上下文（Groundedness 检查）。

代码示例

import asyncio
from openai import OpenAI
from giskard.checks import Scenario, Groundedness

# 初始化 OpenAI 客户端
client = OpenAI()

# 定义被测试的函数
def get_answer(inputs: str) -> str:
    response = client.chat.completions.create(
        model="gpt-4o-mini", # 请替换为您使用的模型
        messages=[{"role": "user", "content": inputs}],
    )
    return response.choices[0].message.content

# 构建测试场景
scenario = (
    Scenario("test_dynamic_output")
    .interact(
        inputs="What is the capital of France?",
        outputs=get_answer,
    )
    .check(
        Groundedness(
            name="answer is grounded",
            answer_key="trace.last.outputs",
            context="France is a country in Western Europe. Its capital is Paris.",
        )
    )
)

# 运行测试并打印报告
async def main():
    result = await scenario.run()
    result.print_report()

if __name__ == "__main__":
    asyncio.run(main())

说明

Scenario：定义测试流程，包括输入数据和调用目标函数。
Groundedness：内置检查项，用于验证模型输出是否与提供的上下文一致（防止幻觉）。
异步执行：run() 方法是异步的，需在 asyncio 环境中运行。

您可以在此基础上扩展更多检查项（如 Conformity, LLMJudge），或构建多轮对话测试场景。详细用法请参考官方文档。

版本历史

giskard-checks/v1.0.2b12026/04/10

giskard-agents/v1.0.2b12026/03/26

giskard-checks/v1.0.1b12026/03/26

giskard-core/v1.0.1b22026/03/26

giskard-core/v1.0.1b12026/03/26

giskard-checks/v1.0.1a22026/03/20

giskard-agents/v1.0.2a12026/03/17

giskard-checks/v1.0.1a12026/03/12

giskard-agents/v1.0.1a12026/03/12

giskard-core/v1.0.1a12026/03/12

v2.19.12026/02/17

v2.19.02026/02/10

v2.18.12025/09/18

v2.18.02025/08/18

v2.17.02025/06/11

v2.16.22025/03/19

v2.16.12025/02/12

v2.16.02024/11/21

v2.15.52024/11/14

v2.15.42024/11/12

常见问题

如何在 Giskard 中配置 Azure OpenAI 以运行 LLM-as-a-judge 扫描？

如何将 Giskard 中的 LLM-as-a-Judge 和 API 调用替换为本地 Ollama 模型？

为什么在使用 LangChain 集成时报告生成失败或 retriever 分数缺失？

如何将 Giskard 测试套件的结果导出为 JUnit 格式以便在 CI/CD 中使用？

Giskard v3 发布后，针对 v2 的功能请求（如分类值扰动检测器）还会被接受吗？

在 Giskard 中使用本地模型时，如何解决模型响应格式导致的兼容性问题？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 156.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|5天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|6天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架