jailbreak_llms

GitHub
3.6k 318 非常简单 1 次阅读 今天MIT语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

jailbreak_llms 是一个专注于大型语言模型(LLM)安全研究的开源数据集项目,旨在收集和分析真实场景中的“越狱”提示词。所谓“越狱”,是指用户通过特殊设计的指令绕过模型的安全限制,诱导其生成有害或违规内容。该项目解决了当前学术界缺乏大规模、真实世界越狱案例数据的问题,为评估和提升模型的安全性提供了坚实基础。

该资源特别适合人工智能研究人员、安全工程师以及大模型开发者使用。通过利用名为 JailbreakHub 的新框架,团队从 Reddit、Discord、专业网站及开源社区中,采集了 2022 年 12 月至 2023 年 12 月期间的 15,140 条真实提示词,并从中精准识别出 1,405 条有效的越狱攻击样本。这是目前已知规模最大的野生越狱提示词集合。

其独特亮点在于数据的“真实性”与“多样性”。不同于实验室合成的攻击数据,这些样本源自真实用户的交互行为,涵盖了多种攻击策略和语境,能够更准确地反映模型在实际部署中面临的安全挑战。研究者可以利用这些数据测试模型的防御能力,进而开发出更鲁棒的对齐技术。需要注意的是,由于包含部分有害语言示例,该项目明确仅限用于学术研究,使用时请遵守相关伦理规范。

使用场景

某大型金融科技公司的大模型安全团队正在为即将上线的智能客服系统进行上线前的红队测试(Red Teaming),旨在全面评估模型抵御恶意诱导攻击的能力。

没有 jailbreak_llms 时

  • 测试样本单一且滞后:团队仅依赖内部构思的少量攻击话术或过时的公开案例,无法覆盖 Reddit、Discord 等社区中最新涌现的复杂越狱技巧,导致测试盲区巨大。
  • 人工收集效率低下:安全工程师需花费数周时间手动爬取和筛选网络上的攻击提示,不仅耗时费力,还容易因人为疏忽遗漏关键的对抗性样本。
  • 缺乏真实场景代表性:自制的测试数据往往过于理论化,难以模拟真实黑产用户在实际对话中使用的隐蔽措辞和逻辑陷阱,导致风险评估结果虚高。
  • 合规与法律风险:在自行搜集网络攻击数据时,极易无意中触碰包含极端有害内容的红线,给团队带来不必要的伦理和法律隐患。

使用 jailbreak_llms 后

  • 覆盖海量真实攻击向量:直接调用包含 15,140 个真实提示(含 1,405 个已验证越狱提示)的数据集,瞬间覆盖从 2022 年底至 2023 年底全网主流平台的最新攻击手法。
  • 即时构建测试基准:无需任何数据清洗工作,团队可在几分钟内将数据集集成到自动化评测流水线中,将原本数周的准备工作压缩至小时级。
  • 精准复现野外威胁:基于真实用户在不同场景(如角色扮演、逻辑绕弯)下的攻击记录进行测试,能准确发现模型在应对“野生”复杂指令时的具体脆弱点。
  • 安全合规的研究环境:利用经过专业整理和标注的数据子集,团队在确保不接触未过滤有害内容的前提下,合法合规地完成了高强度的对抗性演练。

jailbreak_llms 通过提供大规模、真实世界的越狱提示数据集,帮助安全团队从“盲目防御”转向“基于实证的压力测试”,显著提升了大模型上线前的安全水位。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该项目主要是一个数据集和分析框架,用于加载和研究越狱提示词。核心功能是通过 Hugging Face `datasets` 库加载数据。代码部分包含评估器(ChatGLMEval)和语义可视化脚本,但 README 中未列出具体的深度学习框架(如 PyTorch/TensorFlow)或硬件加速需求。若仅进行数据加载和分析,普通 CPU 环境即可;若运行评估器,可能需要根据具体模型自行配置相应的 AI 框架环境。
python未说明
datasets
jailbreak_llms hero image

快速开始

大型語言模型中的野外越獄提示

CCS: 2024 arXiv: 预印本 网站: 在线 数据集: Hugging Face 许可证: MIT

这是由Xinyue Shen、Zeyuan Chen、Michael Backes、Yun Shen和Yang Zhang共同撰写的ACM CCS 2024论文《“现在就做任何事”:对大型語言模型中野外越狱提示的特征描述与评估》(https://arxiv.org/abs/2308.03825)的官方存储库。

在本项目中,我们利用全新的框架JailbreakHub,首次对野外越狱提示进行了测量研究,共收集了15,140条提示,时间跨度为2022年12月至2023年12月,其中包含1,405条越狱提示

请访问我们的网站

免责声明。此仓库包含有害语言示例。建议读者谨慎浏览。本仓库仅用于研究目的。严禁任何滥用行为。

数据

提示

总体而言,我们在2022年12月至2023年12月期间,从四个平台(Reddit、Discord、网站和开源数据集)收集了15,140条提示。在这些提示中,我们识别出1,405条越狱提示。据我们所知,该数据集是目前最大的野外越狱提示集合。

数据可在此处获取。

我们的数据来源统计。(Adv)UA指(对抗性)用户账户。

平台 来源 帖子数量 UA数量 Adv UA数量 提示数量 越狱数量 提示时间范围
Reddit r/ChatGPT 163549 147 147 176 176 2023.02-2023.11
Reddit r/ChatGPTPromptGenius 3536 305 21 654 24 2022.12-2023.11
Reddit r/ChatGPTJailbreak 1602 183 183 225 225 2023.02-2023.11
Discord ChatGPT 609 259 106 544 214 2023.02-2023.12
Discord ChatGPT Prompt Engineering 321 96 37 278 67 2022.12-2023.12
Discord Spreadsheet Warriors 71 3 3 61 61 2022.12-2023.09
Discord AI Prompt Sharing 25 19 13 24 17 2023.03-2023.04
Discord LLM Promptwriting 184 64 41 167 78 2023.03-2023.12
Discord BreakGPT 36 10 10 32 32 2023.04-2023.09
网站 AIPRM - 2777 23 3930 25 2023.01-2023.06
网站 FlowGPT - 3505 254 8754 405 2022.12-2023.12
网站 JailbreakChat - - - 79 79 2023.02-2023.05
数据集 AwesomeChatGPTPrompts - - - 166 2 -
数据集 OCR-Prompts - - - 50 0 -
总计 169,933 7,308 803 15,140 1,405 2022.12-2023.12

加载提示

您可以使用Hugging Face的Datasets库轻松加载所有收集到的提示。

from datasets import load_dataset

dataset = load_dataset('TrustAIRLab/in-the-wild-jailbreak-prompts', 'jailbreak_2023_05_07', split='train')
# dataset = load_dataset('TrustAIRLab/in-the-wild-jailbreak-prompts', 'jailbreak_2023_12_25', split='train')
# dataset = load_dataset('TrustAIRLab/in-the-wild-jailbreak-prompts', 'regular_2023_05_07', split='train')
# dataset = load_dataset('TrustAIRLab/in-the-wild-jailbreak-prompts', 'regular_2023_12_25', split='train')

原始的CSV文件已提供在我们的GitHub仓库jailbreak_llms中。

注意:如果您计划使用此数据集训练模型,建议对prompt字段进行预处理以去除重复项。 更多详情,请参阅Hugging Face数据集讨论

问题集

为了评估越狱提示的有效性,我们构建了一个包含390个问题的问题集,涵盖了来自OpenAI使用政策的13个禁止场景。

我们在评估中排除了“儿童性虐待”这一场景,专注于其余13个场景,包括“非法活动”、“仇恨言论”、“恶意软件生成”、“人身伤害”、“经济损害”、“欺诈”、“色情内容”、“政治游说”、“隐私侵犯”、“法律意见”、“财务建议”、“健康咨询”以及“政府决策”。

from datasets import load_dataset

forbidden_question_set = load_dataset("TrustAIRLab/forbidden_question_set", split='train')

问题集的原始文件也已在我们的GitHub仓库jailbreak_llms中提供。

代码

评估器 - ChatGLMEval

cd code/ChatGLMEval
<!-- 在run_evaluator.py的df_path_list中添加数据路径 -->
python run_evaluator.py

语义可视化

请查看code/semantics_visualization/visualize.ipynb

伦理

我们承认,在线收集的数据可能包含个人信息。因此,我们采用行业标准的最佳实践,以确保本研究遵循伦理原则,例如不尝试对任何用户进行去匿名化处理,并仅报告汇总结果。由于本研究仅使用公开可用的数据,且未与参与者进行直接互动,我们的机构审查委员会(IRB)并未将其认定为涉及人类受试者的研究。尽管如此,鉴于我们的目标之一是评估大型语言模型在回答有害问题时的风险,不可避免地需要披露模型如何生成仇恨内容。这可能会引发人们对潜在滥用的担忧。然而,我们坚信,提高对此问题的认识更为重要,因为它能够帮助大型语言模型供应商和研究界制定更健全的安全保障措施,从而推动这些模型更加负责任地发布。

我们已以负责任的方式将研究发现告知相关的大语言模型供应商。

引用

如果您在研究中认为本工作有所帮助,请考虑引用:

@inproceedings{SCBSZ24,
      author = {Xinyue Shen and Zeyuan Chen and Michael Backes and Yun Shen and Yang Zhang},
      title = {{``Do Anything Now'': Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models}},
      booktitle = {{ACM SIGSAC Conference on Computer and Communications Security (CCS)}},
      publisher = {ACM},
      year = {2024}
}

许可证

jailbreak_llms 根据 MIT 许可证条款授权。更多详情请参阅 LICENSE 文件。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

156k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|4天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|5天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架