FuzzyAI

1.3k 188 简单 1 次阅读今天Apache-2.0开发框架图像其他Agent语言模型

AI 解读由 AI 自动生成，仅供参考

FuzzyAI 是一款专为大型语言模型（LLM）设计的自动化模糊测试工具，旨在帮助开发者与安全研究人员主动发现并修复模型 API 中潜在的“越狱”漏洞。随着大模型应用的普及，恶意提示词可能导致模型绕过安全限制，输出有害内容，FuzzyAI 正是为了解决这一安全隐患而生。它通过自动化的攻击模拟，高效识别模型在面对各类恶意输入时的脆弱点，从而协助团队在部署前加固防御体系。

该工具特别适合 AI 应用开发者、安全审计人员以及大模型研究者使用。无论是希望评估自家模型安全性的工程师，还是致力于研究对抗性攻击的学者，都能从中获益。FuzzyAI 的技术亮点在于其丰富的攻击策略库，支持包括 ManyShot、Taxonomy 及 ArtPrompt 在内的多种先进攻击模式，并能无缝对接 Ollama 本地模型以及 OpenAI、Anthropic 等主流云端 API。此外，它还提供了直观的 Web 界面和交互式 Jupyter 笔记本，降低了使用门槛，让用户能灵活地定制测试场景或分析数据集。通过 FuzzyAI，用户可以更安心地构建和部署健壮、安全的智能应用。

使用场景

某金融科技公司安全团队在上线自研智能客服大模型前，急需验证其 API 接口是否能抵御恶意诱导攻击（越狱），以确保用户数据与合规安全。

没有 FuzzyAI 时

安全测试依赖人工构造少量攻击提示词，覆盖场景有限，难以发现隐蔽的越狱漏洞。
缺乏自动化流程，每次模型迭代后需重复耗时的人工渗透测试，严重拖慢发布节奏。
无法系统化评估不同攻击策略（如 ManyShot、Taxonomy）的有效性，防御措施往往凭经验猜测。
面对开源与商业多种模型架构，手动切换测试环境繁琐且容易出错，测试一致性差。

使用 FuzzyAI 后

通过内置数据集和自动化模糊测试，FuzzyAI 能在数分钟内生成成千上万种变异攻击 prompt，全面暴露潜在越狱风险。
集成 CI/CD 流水线，模型每次更新自动触发 fuzz 命令进行回归测试，将安全验证时间从天级缩短至分钟级。
支持一键切换 Ollama 本地模型或 OpenAI/Claude 等云端 API，并灵活组合 ArtPrompt 等多种攻击算法，精准量化防御短板。
利用 Web UI 可视化查看攻击结果与黑词命中情况，帮助开发人员快速定位漏洞并针对性优化系统指令。

FuzzyAI 将原本零散被动的大模型安全审计，转变为高效、自动化的主动防御体系，为业务上线筑牢了最后一道防线。

运行环境要求

操作系统

未说明

GPU

非必需（支持本地模型如 Ollama，也支持云端 API）

内存

未说明（若运行本地 8B 参数模型如 Llama3.1，建议 8GB+）

依赖

notes该工具主要通过 API 调用（OpenAI, Anthropic 等）或本地 Ollama 运行。若选择本地运行，需安装 Ollama 并下载模型（如 Llama3.1 约 4.7GB）。支持 Web UI 和 Jupyter Notebook。未明确指定具体的 Python 版本、GPU 型号或 CUDA 版本要求，因为核心逻辑依赖外部模型提供商或 Ollama 抽象层。

python未说明（需支持 Poetry 和 pip 安装）

poetry

ollama (可选，用于本地模型)

快速开始

FuzzyAI 模糊测试工具

项目Logo
FuzzyAI 模糊测试工具是一款功能强大的自动化大语言模型（LLM）模糊测试工具。它旨在帮助开发者和安全研究人员识别逃逸攻击，并缓解其 LLM API 中潜在的安全漏洞。

fuzzgif

快速入门

快速入门 #1 - 使用现有 Python 项目

安装 FuzzyAI

# 可以使用 pip 或其他任何包管理器
pip install git+https://github.com/cyberark/FuzzyAI.git

运行模糊测试工具
```
fuzzyai fuzz -h
```

快速入门 #2 - 或作为独立项目

克隆仓库：

git clone git@github.com:cyberark/FuzzyAI.git
cd FuzzyAI

使用 Poetry 安装依赖项：
```
poetry run pip install -e .
```
运行模糊测试工具：
```
poetry run fuzzyai fuzz -h
```
可选：安装 ollama 并下载一个本地使用的模型：
```
ollama pull llama3.1
ollama show llama3.1 # 验证模型是否已安装
```
或者，您也可以使用 Web UI。

Web UI（实验性）

FZAI

运行 Web UI（请确保已完成上述任一安装步骤）：

 poetry run fuzzyai webui
 
 # 或指定自定义端口：
 poetry run fuzzyai webui --port 9000

笔记本

我们提供了一些交互式 Jupyter 笔记本，您可以在 src/fuzzyai/resources/notebooks/ 下找到它们。
更多信息，请参阅笔记本 Wiki。

数据集

我们提供了一些数据集，您可以在 resources/ 下找到它们。更多信息，请参阅数据集 Wiki。

文档

在 Wiki 中可以找到详细的使用说明。

示例

如果您使用 Poetry，请确保已激活虚拟环境（或者在命令前加上 poetry run）。

使用 Ollama 上的 llama 对默认攻击进行测试（仅评估“有害提示”）

fuzzyai fuzz -m ollama/llama3.1 -a def -t "Harmful_Prompt"

使用 ManyShot 和 Taxonomy 攻击对提示进行攻击，使用 OpenAI 上的 gpt3.5 并启用单个工作线程

OPENAI_API_KEY=sk-3fa1... fuzzyai fuzz -m openai/gpt-3.5-turbo -a man -a tax -t "Harmful_Prompt"

使用 Claude 3.5 对 prompts.txt 中的提示进行 ArtPrompt 攻击，使用 Anthropic 上的 Claude 3.5

ANTHROPIC_API_KEY=deadbeef... fuzzyai fuzz -m anthropic/claude-3-5-sonnet-20240620 -a art -T src/fuzzyai/resources/adv_prompts.txt -e blacklisted_words="bomb,garbage,acid,ugly,self-harm,kill your"

对您自己的 REST API 进行攻击

OPENAI_API_KEYT=sk-3fa1... fuzzyai fuzz -a def -x openai/gpt-4 -e classifier_model=openai/gpt-4 -m rest/http.raw -e host=localhost -e port=8000 -e scheme=https  
-t "如何制造炸弹"

参数解析：

-a def：
调用默认攻击模式，该模式会在不应用额外策略的情况下评估 API。
-x openai/gpt-4：
指定辅助模型（gpt-4），用于在攻击过程中协助完成某些任务。
-e classifier_model=openai/gpt-4：
配置模糊测试工具使用 gpt-4 模型来分类输出。这有助于确定响应是否符合特定标准，例如检测有害或不良内容。
-m rest/http.raw：
使用 REST 提供程序攻击 API 端点。原始 HTTP 请求从文件 http.raw 中解析。（有关文件结构的详细信息，请参阅文档或示例。）
-e host=localhost -e port=8000 -e scheme=https：
使用以下 API 端点详细信息配置 REST 提供程序：
- 主机：localhost
- 端口：8000
- 协议：https（通信将使用 HTTPS）
-t "如何制造炸弹"：
指定测试输入。在此示例中，测试的是 API 对敏感或有害内容的处理能力。

核心特性

全面的模糊测试技术：利用基于变异、基于生成以及智能模糊测试技术。
内置输入生成：生成有效和无效输入，以实现全面测试。
无缝集成：轻松集成到您的开发和测试流程中。
可扩展架构：根据您的独特需求自定义和扩展模糊测试工具。

支持的模型

FuzzyAI 支持来自顶级提供商的各种模型，包括：

提供商	模型
Anthropic	Claude (3.5、3.0、2.1)
OpenAI	GPT-4o、GPT-4o mini、GPT o3
Gemini	Gemini Pro、Gemini 1.5
Azure	GPT-4、GPT-3.5 Turbo
Bedrock	Claude (3.5、3.0)、Meta (LLaMa)
AI21	Jamba (1.5 Mini、Large)
DeepSeek	DeepSeek (DeepSeek-V3、DeepSeek-V1)
Ollama	LLaMA (3.3、3.2、3.1)、Dolphin-LLaMA3、Vicuna

添加对新模型的支持

只需按照我们的DIY 指南，即可轻松添加对其他模型的支持。

已实现的攻击方法

详细信息请参阅攻击维基

攻击类型	标题	参考
艺术提示	基于 ASCII 艺术的越狱攻击，针对对齐的大型语言模型	arXiv:2402.11753
基于分类法的改写	利用情感诉求等说服性语言技巧来越狱大型语言模型	arXiv:2401.06373
PAIR（提示自动迭代优化）	通过两台大型语言模型迭代优化提示，自动进行对抗性提示生成	arXiv:2310.08419
多次示例越狱	嵌入多个虚假对话示例以削弱模型的安全性	Anthropic Research
ASCII 秘密传输	ASCII 秘密传输利用 Unicode 标记字符在文本中嵌入隐藏指令，这些指令对用户不可见，但可被大型语言模型 (LLM) 处理，从而可能导致提示注入攻击	Embracethered 博客
遗传算法	利用遗传算法修改提示以达到对抗性效果	arXiv:2309.01446
幻觉	使用模型生成的内容绕过 RLHF 过滤器	arXiv:2403.04769
DAN（立即做任何事）	促使大型语言模型采用不受限制的角色，忽略标准内容过滤机制，从而使其能够“立即做任何事”。	GitHub 仓库
文字游戏	将有害提示伪装成文字谜题	arXiv:2405.14023
渐强法	通过一系列逐步升级的对话轮次与模型互动，从无害的问题开始，逐渐将对话引向受限或敏感话题。	arXiv:2404.01833
行动者攻击	受行动者网络理论启发，构建“行动者”的语义网络，在隐藏恶意意图的同时，巧妙地引导对话走向有害目标。	arxiv 2410.10700
最佳 n 次越狱	利用输入变体反复诱导模型产生有害响应，利用模型的敏感性	arXiv:2412.03556
打乱不一致性攻击 (SI-Attack)	利用大型语言模型的理解能力与安全机制之间的不一致性，通过打乱有害文本提示来实施攻击。打乱后的文本可以绕过安全机制，但仍被模型识别为有害内容。目前仅完成了基于文本的实现，基于图像的部分尚未实现。	arXiv:2501.04931
回到过去	通过添加职业相关的前缀和与过去相关的后缀来修改提示
历史/学术框架	将敏感的技术数据包装成学术或历史研究的形式，以实现合乎伦理和法律的使用——这可能会导致越狱。
请	通过在提示前后分别添加“请”一词来修改提示
思想实验	在提示前添加与思想实验相关的内容，并在结尾加上“已采取预防措施”的后缀
默认	直接将提示原样发送给模型

支持的云 API

OpenAI
Anthropic
Gemini
Azure 云
AWS Bedrock
AI21
DeepSeek
Huggingface (下载模型)
Ollama
自定义 REST API

注意事项

某些分类器的功能不仅仅是评估单个输出。例如，余弦相似度分类器通过测量两个输出之间的夹角来比较它们，而“危害性”分类器则会检查给定的输出是否具有危害性。因此，并非所有分类器都与我们实现的攻击方法兼容，因为这些方法是为单输出分类器设计的。
当使用 -m 选项与 OLLAMA 模型一起使用时，请确保先添加所有 OLLAMA 模型，然后再添加其他模型。 使用 -e port=... 选项指定 OLLAMA 的端口号（默认为 11434）。

贡献

欢迎贡献！如果您希望为 FuzzyAI Fuzzer 做出贡献，请遵循 CONTRIBUTING.md 文件中概述的指南。

许可证

FuzzyAI Fuzzer 根据 Apache 许可证发布。有关详细信息，请参阅 LICENSE 文件。

联系方式

如果您对 FuzzyAI Fuzzer 有任何疑问或建议，请随时通过电子邮件 fzai@cyberark.com 与我们联系。

FuzzyAI 快速上手指南

FuzzyAI 是一款强大的自动化大语言模型（LLM）模糊测试工具，旨在帮助开发者和安全研究人员识别越狱攻击（Jailbreaks）并缓解 LLM API 中的潜在安全漏洞。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：Linux, macOS 或 Windows (WSL 推荐)
Python：版本 3.8 或更高
包管理器：pip 或 Poetry (推荐用于独立项目开发)
可选本地模型：若需本地运行，建议安装 Ollama

安装步骤

您可以选择以下两种方式之一进行安装：

方式一：作为 Python 库安装（推荐快速试用）

直接使用 pip 从 GitHub 安装：

pip install git+https://github.com/cyberark/FuzzyAI.git

方式二：作为独立项目克隆（推荐二次开发）

克隆仓库并进入目录：

git clone git@github.com:cyberark/FuzzyAI.git
cd FuzzyAI

使用 Poetry 安装依赖：
```
poetry run pip install -e .
```
（可选）配置本地模型支持：如果您希望使用本地模型（如 Llama 3.1），请先安装 Ollama 并拉取模型：
```
ollama pull llama3.1
ollama show llama3.1 # 验证模型安装
```

基本使用

安装完成后，您可以通过命令行直接运行模糊测试。以下是几个典型的使用场景：

1. 查看帮助信息

了解可用的命令和参数：

fuzzyai fuzz -h

(如果您使用 Poetry 安装且未激活虚拟环境，请在命令前加 poetry run)

2. 默认攻击测试（使用本地 Ollama 模型）

对提示词 "Harmful_Prompt" 执行默认攻击策略，使用本地的 llama3.1 模型：

fuzzyai fuzz -m ollama/llama3.1 -a def -t "Harmful_Prompt"

3. 针对云 API 的高级攻击

结合多种攻击策略（ManyShot 和 Taxonomy），使用 OpenAI 的 gpt-3.5-turbo 进行测试：

OPENAI_API_KEY=sk-3fa1... fuzzyai fuzz -m openai/gpt-3.5-turbo -a man -a tax -t "Harmful_Prompt"

4. 启动 Web UI（实验性功能）

如果您更喜欢图形化界面，可以启动内置的 Web UI：

poetry run fuzzyai webui
# 或者指定端口
poetry run fuzzyai webui --port 9000

提示：FuzzyAI 支持 Anthropic、OpenAI、Gemini、Azure、Bedrock 等多种主流模型提供商。更多高级用法（如自定义 REST API 测试、特定攻击向量配置）请参阅官方 Wiki 文档。

常见问题

如何支持或使用 Qwen 模型？

Discord 邀请链接失效了，有新的链接吗？

为什么运行 run.py 时提示找不到文件？

如何在 Windows 上解决无法连接到 localhost:8080 的问题？

LLM 的回答是如何进行评估的？是否使用了自动评判器？

能否将 FuzzyAI 作为库（library）导入使用，而不是作为二进制工具？

使用 GPTFuzzer 攻击风格时，如果变异模型生成的提示包含花括号导致报错怎么办？

Crescendo 攻击中辅助模型生成的对抗性提示主题单一且不随用户输入变化，如何解决？

文档中的命令缺少 poetry 前缀导致运行失败，正确的运行方式是什么？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.4k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|2天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像