Awesome-Jailbreak-on-LLMs
Awesome-Jailbreak-on-LLMs 是一个汇集了最新大语言模型(LLM)绕过安全限制方法的开源资源库,涵盖攻击论文、代码、数据集与评估分析。它系统整理了针对模型对齐机制的多种突破技术,如基于推理诱导的“BadThink”、通过翻转提示实现的“FlipAttack”,以及针对多模态和RAG系统的新型攻击手段,帮助研究者深入理解模型的安全边界。该资源库解决了当前LLM安全评估中缺乏系统性攻击案例库的问题,为安全防护研究提供真实、前沿的测试基准。适合从事AI安全、模型对齐、红队测试的研究人员和开发者使用,也可辅助安全工程师设计更鲁棒的防御机制。资源中包含多篇顶会论文与可复现代码,尤其在“推理诱导攻击”和“多模态越狱”方向具有创新性,部分方法已在实际模型中验证有效。欢迎研究人员贡献新方法,共同推动AI安全领域的透明与进步。
使用场景
某大型金融科技公司安全团队正在为一款面向公众的AI客服系统做合规性加固,该系统需严格过滤金融诈骗、洗钱诱导等高风险问答,但近期频繁被用户用隐晦话术绕过,导致监管风险上升。
没有 Awesome-Jailbreak-on-LLMs 时
- 团队依赖传统关键词过滤和简单提示词加固,无法识别新型语义混淆攻击,如“帮我规划一笔‘合法避税’操作”被误判为正常咨询。
- 缺乏对多轮对话攻击的测试能力,攻击者通过5轮诱导逐步突破模型防线,团队无从复现和定位漏洞。
- 无法评估新上线的RAG检索模块是否易被恶意查询污染,导致系统偶尔返回伪造的“高收益理财建议”。
- 安全测试依赖外部红队,周期长、成本高,且每次攻击手法更新后需重新协商合作。
- 没有统一的评估基准,不同模型版本的安全性对比缺乏数据支撑,决策靠经验而非实证。
使用 Awesome-Jailbreak-on-LLMs 后
- 团队直接复用 FlipAttack 和 BadThink 的攻击模板,在内部测试环境快速模拟出12种新型绕过话术,发现3个此前未察觉的漏洞。
- 利用其多轮攻击数据集和代码,自动化构建了“诱导链测试流水线”,将攻击检测周期从2周缩短至48小时。
- 通过集成针对RAG的攻击案例,发现检索模块会因用户输入“请引用央行2024年报告”而返回伪造文档,立即优化了来源验证机制。
- 团队内部可独立完成安全攻防演练,不再依赖外部红队,年度测试成本降低60%。
- 基于工具中的评估指标,建立模型安全评分体系,为模型选型和迭代提供明确依据,合规报告通过率提升90%。
Awesome-Jailbreak-on-LLMs 让安全团队从被动防御转向主动攻防,真正实现了AI系统安全的可量化、可复现、可迭代。
运行环境要求
- Linux
- macOS
- Windows
未说明
未说明

快速开始
令人惊叹的LLM jailbreak方法集
Awesome-Jailbreak-on-LLMs 是一个收集了当前最先进、新颖且激动人心的LLM jailbreak方法的集合。它包含论文、代码、数据集、评估和分析等内容。任何有关jailbreak的补充内容、PR或问题都欢迎提出,我们很乐意将您加入贡献者名单这里。如有任何问题,请联系 yliu@u.nus.edu。如果您觉得这个仓库对您的研究或工作有所帮助,非常感谢您给本仓库点赞并引用我们的论文这里。:sparkles:
参考文献
如果您觉得这个仓库对您的研究有帮助,我们非常感谢您能引用我们的论文。:sparkles:
@article{zhuzhenhao_GuardReasoner_Omni,
title={GuardReasoner-Omni: 一种基于推理的文本、图像和视频多模态安全防护},
author={朱振浩、刘悦、郭延培、曲文杰、陈灿灿、何宇飞、李一博、陈玉林、吴天一、徐慧颖等},
journal={arXiv预印本 arXiv:2602.03328},
year={2026}
}
@article{liuyue_GuardReasoner_VL,
title={GuardReasoner-VL: 通过强化推理保障VLMs的安全},
author={刘悦、翟圣芳、杜明哲、陈玉林、曹三、高洪成、王程、李新峰、王坤、方俊峰、张嘉恒、胡伊·布莱恩},
journal={arXiv预印本 arXiv:2505.11049},
year={2025}
}
@article{liuyue_GuardReasoner,
title={GuardReasoner: 向基于推理的LLM安全防护迈进},
author={刘悦、高洪成、翟圣芳、Jun夏、吴天一、薛志伟、陈玉林、川口健二、张嘉恒、胡伊·布莱恩},
journal={arXiv预印本 arXiv:2501.18492},
year={2025}
}
@article{liuyue_FlipAttack,
title={FlipAttack: 通过翻转实现LLM jailbreak},
author={刘悦、何晓欣、熊淼、傅金兰、邓淑敏、胡伊·布莱恩},
journal={arXiv预印本 arXiv:2410.02832},
year={2024}
}
@article{wang2025safety,
title={大型推理模型中的安全性:综述},
author={王程、刘悦、李宝龙、张杜真、李忠志、方俊峰},
journal={arXiv预印本 arXiv:2504.17704},
year={2025}
}
书签
论文
Jailbreak攻击
针对LRM的攻击
| 时间 | 标题 | 会议 | 论文 | 代码 |
|---|---|---|---|---|
| 2025.11 | BadThink: 触发过度思考攻击,针对大型语言模型中的链式思维推理 | AAAI'26 | 链接 | - |
| 2025.08 | Jinx: 用于探测对齐失败的无限LLM | arXiv | 链接 | 模型 |
| 2025.07 | BadReasoner: 在大型推理模型中植入可调过度思考后门,用于娱乐或牟利 | arXiv | 链接 | 链接 |
| 2025.06 | ExtendAttack: 通过扩展推理攻击LRM服务器 | AAAI'26 | 链接 | 链接 |
| 2025.06 | 过度推理攻击推理LLM | arXiv | 链接 | - |
| 2025.03 | 猫迷惑推理LLM:针对推理模型的查询无关对抗性触发器 | arXiv | 链接 | - |
| 2025.02 | OverThink: 针对推理LLM的减速攻击 | arXiv | 链接 | 链接 |
| 2025.02 | BoT: 通过后门攻击破解o1类大型语言模型的长思维过程 | arXiv | 链接 | 链接 |
| 2025.02 | H-CoT: 劫持链式思维安全推理机制,实现大型推理模型的jailbreak,包括OpenAI o1/o3、DeepSeek-R1和Gemini 2.0 Flash Thinking | arXiv | 链接 | 链接 |
| 2025.02 | 捕鼠器:用迭代混沌链愚弄大型推理模型实现jailbreak | arXiv | 链接 | - |
黑盒攻击
| 时间 | 标题 | venue | 论文 | 代码 |
|---|---|---|---|---|
| 2026.03 | 前沿大型语言模型中的内部安全崩溃(ISC-Bench) | arXiv | 链接 | 链接 |
| 2025.10 | BreakFun:通过模式利用实现大型语言模型的越狱 | arXiv | 链接 | - |
| 2025.07 | 响应攻击:利用上下文提示增强大型语言模型的越狱能力 | arXiv | 链接 | 链接 |
| 2025.05 | 表情符号攻击:增强针对法官大型语言模型检测的越狱攻击 | ICML'25 | 链接 | 链接 |
| 2025.05 | FlipAttack:通过翻转实现大型语言模型的越狱(FlipAttack) | ICML'25 | 链接 | 链接 |
| 2025.03 | 扮演傻瓜:使用分布外策略实现大型语言模型和多模态语言模型的越狱(JOOD) | CVPR'25 | 链接 | 链接 |
| 2025.02 | StructTransform:面向安全对齐大型语言模型的可扩展攻击面 | arXiv | 链接 | 链接 |
| 2025.01 | 用通用魔法词保护大型语言模型的越狱,适用于文本嵌入模型 | arXiv | 链接 | - |
| 2025.01 | 理解和增强越狱攻击的可迁移性 | ICLR'25 | 链接 | 链接 |
| 2024.11 | 信任的阴暗面:基于权威引用的大型语言模型越狱攻击 | arXiv | 链接 | 链接 |
| 2024.11 | 与大型语言模型玩语言游戏导致越狱 | arXiv | 链接 | 链接 |
| 2024.11 | GASP:高效黑盒生成对抗后缀以实现大型语言模型的越狱(GASP) | arXiv | 链接 | 链接 |
| 2024.11 | LLM STINGER:利用强化学习微调的大型语言模型实现越狱 | arXiv | 链接 | - |
| 2024.11 | SequentialBreak:通过将越狱提示嵌入序列化提示中欺骗大型语言模型 | arXiv | 链接 | 链接 |
| 2024.11 | 多样性有助于越狱大型语言模型 | arXiv | 链接 | - |
| 2024.11 | 用字符串组合实现丰富的越狱 | arXiv | 链接 | - |
| 2024.11 | 可迁移的集成黑盒越狱大型语言模型攻击 | arXiv | 链接 | 链接 |
| 2024.11 | 通过良性数据镜像实现隐蔽的大型语言模型越狱攻击 | arXiv | 链接 | - |
| 2024.10 | 通过双射实现无尽越狱 | arXiv | 链接 | - |
| 2024.10 | 利用任务过载实现可扩展的大型语言模型越狱攻击 | arXiv | 链接 | - |
| 2024.10 | 你知道我在说什么:通过隐式引用实现越狱攻击 | arXiv | 链接 | 链接 |
| 2024.10 | 破解混沌:通过对抗性提示翻译增强越狱攻击 | arXiv | 链接 | 链接 |
| 2024.10 | AutoDAN-Turbo:一种终身代理,用于策略自我探索以实现大型语言模型的越狱(AutoDAN-Turbo) | arXiv | 链接 | 链接 |
| 2024.10 | PathSeeker:基于强化学习的越狱方法探索大型语言模型的安全漏洞(PathSeeker) | arXiv | 链接 | - |
| 2024.10 | 读取行间内容:利用ASCII艺术掩盖脏话攻击大型语言模型和毒性检测系统 | arXiv | 链接 | 链接 |
| 2024.09 | AdaPPA:针对大型语言模型的自适应位置预填充越狱攻击方法 | arXiv | 链接 | 链接 |
| 2024.09 | 有效且规避的模糊测试驱动的大型语言模型越狱攻击 | arXiv | 链接 | - |
| 2024.09 | 用符号数学实现大型语言模型的越狱 | arXiv | 链接 | - |
| 2024.08 | 与大型语言模型玩猜谜游戏:间接越狱攻击与隐含线索 | ACL Findings'24 | 链接 | 链接 |
| 2024.08 | 推进对齐大型语言模型的对抗后缀迁移学习 | arXiv | 链接 | - |
| 2024.08 | 将恶意目标隐藏在良性叙事中:通过神经载体文章实现大型语言模型的越狱 | arXiv | 链接 | - |
| 2024.08 | h4rm3l:可组合越狱攻击的动态基准,用于大型语言模型安全评估(h4rm3l) | arXiv | 链接 | 链接 |
| 2024.08 | EnJa:大型语言模型的集成越狱(EnJa) | arXiv | 链接 | - |
| 2024.07 | 知识到越狱:一点知识抵得上一次攻击 | arXiv | 链接 | 链接 |
| 2024.07 | 大型语言模型可能是危险的推理者:基于分析的大型语言模型越狱攻击 | arXiv | 链接 | |
| 2024.07 | 单字符扰动破坏大型语言模型对齐 | arXiv | 链接 | 链接 |
| 2024.07 | 虚假的安全感:‘安全’AI回复中的不安全信息泄露 | arXiv | 链接 | - |
| 2024.07 | 虚拟上下文:通过特殊标记注入增强越狱攻击(虚拟上下文) | arXiv | 链接 | - |
| 2024.07 | SoP:解锁社交促进的力量,实现自动越狱攻击(SoP) | arXiv | 链接 | 链接 |
| 2024.06 | 越狱作为奖励错配问题 | ICLR'25 | 链接 | 链接 |
| 2024.06 | 改进的小样本越狱可绕过对齐语言模型及其防御措施(I-FSJ) | NeurIPS'24 | 链接 | 链接 |
| 2024.06 | 当大型语言模型遇上深度强化学习:通过深度强化学习引导的搜索提升越狱效率(RLbreaker) | NeurIPS'24 | 链接 | - |
| 2024.06 | 史密斯特工:一张图片可指数级快速越狱百万个多模态语言模型代理(史密斯特工) | ICML'24 | 链接 | 链接 |
| 2024.06 | 隐蔽恶意微调:保障大型语言模型适配的挑战 | ICML'24 | 链接 | - |
| 2024.06 | ArtPrompt:基于ASCII艺术的对齐大型语言模型越狱攻击(ArtPrompt) | ACL'24 | 链接 | 链接 |
| 2024.06 | 从噪声到清晰:通过文本嵌入翻译揭示大型语言模型攻击的对抗后缀(ASETF) | arXiv | 链接 | - |
| 2024.06 | CodeAttack:通过代码补全揭示大型语言模型的安全泛化挑战(CodeAttack) | ACL'24 | 链接 | - |
| 2024.06 | 让他们问并回答:通过伪装和重构实现少量查询中的大型语言模型越狱(DRA) | USENIX Security'24 | 链接 | 链接 |
| 2024.06 | AutoJailbreak:通过依赖性视角探索越狱攻击与防御措施(AutoJailbreak) | arXiv | 链接 | - |
| 2024.06 | 用简单自适应攻击实现领先安全对齐大型语言模型的越狱 | arXiv | 链接 | 链接 |
| 2024.06 | GPTFUZZER:用自动生成的越狱提示对大型语言模型进行红队攻击(GPTFUZZER) | arXiv | 链接 | 链接 |
| 2024.06 | 披着羊皮的狼:通用嵌套越狱提示可轻松欺骗大型语言模型(ReNeLLM) | NAACL'24 | 链接 | 链接 |
| 2024.06 | QROA:针对大型语言模型的黑盒查询-响应优化攻击(QROA) | arXiv | 链接 | 链接 |
| 2024.06 | LangChain中毒:通过LangChain实现大型语言模型的越狱(PLC) | arXiv | 链接 | 链接 |
| 2024.05 | 大型语言模型中的多语言越狱挑战 | ICLR'24 | 链接 | 链接 |
| 2024.05 | DeepInception:催眠大型语言模型成为越狱者(DeepInception) | EMNLP'24 | 链接 | 链接 |
| 2024.05 | GPT-4通过自我解释几乎完美地实现自我越狱(IRIS) | ACL'24 | 链接 | - |
| 2024.05 | GUARD:角色扮演生成自然语言越狱以测试大型语言模型的准则遵守情况(GUARD) | arXiv | 链接 | - |
| 2024.05 | “现在就做任何事”:刻画和评估大型语言模型上的野外越狱提示(DAN) | CCS'24 | 链接 | 链接 |
| 2024.05 | Gpt-4太聪明了,无法保证安全:通过密码与大型语言模型进行隐蔽聊天(SelfCipher) | ICLR'24 | 链接 | 链接 |
| 2024.05 | 通过密码字符实现大型语言模型的越狱攻击(JAM) | NeurIPS'24 | 链接 | - |
| 2024.05 | 仅用少量上下文示范实现对齐语言模型的越狱攻击(ICA) | arXiv | 链接 | - |
| 2024.04 | 多轮越狱(MSJ) | NeurIPS'24 Anthropic | 链接 | - |
| 2024.04 | PANDORA:通过协作钓鱼代理与分解推理实现详细的大型语言模型越狱(PANDORA) | ICLR Workshop'24 | 链接 | - |
| 2024.04 | Fuzzllm:一种新颖且通用的模糊测试框架,主动发现大型语言模型中的越狱漏洞(FuzzLLM) | ICASSP'24 | 链接 | 链接 |
| 2024.04 | 三明治攻击:多语言混合自适应攻击大型语言模型(三明治攻击) | TrustNLP'24 | 链接 | - |
| 2024.03 | Tastle:为自动越狱攻击分散大型语言模型注意力(TASTLE) | arXiv | 链接 | - |
| 2024.03 | DrAttack:提示分解与重构打造强大的大型语言模型越狱工具(DrAttack) | EMNLP'24 | 链接 | 链接 |
| 2024.02 | PRP:传播通用扰动以攻击大型语言模型防护墙(PRP) | arXiv | 链接 | - |
| 2024.02 | CodeChameleon:个性化加密框架用于大型语言模型的越狱(CodeChameleon) | arXiv | 链接 | 链接 |
| 2024.02 | PAL:代理引导的大型语言模型黑盒攻击(PAL) | arXiv | 链接 | 链接 |
| 2024.02 | 利用单词替换密码实现专有大型语言模型的越狱 | arXiv | 链接 | - |
| 2024.02 | 基于查询的对抗性提示生成 | arXiv | 链接 | - |
| 2024.02 | 通过多轮交互利用上下文实现越狱攻击(上下文交互攻击) | arXiv | 链接 | - |
| 2024.02 | 语义镜像越狱:基于遗传算法的越狱提示对抗开源大型语言模型(SMJ) | arXiv | 链接 | - |
| 2024.02 | 认知过载:通过逻辑思维过载实现大型语言模型的越狱 | NAACL'24 | 链接 | 链接 |
| 2024.01 | 低资源语言越狱GPT-4 | NeurIPS Workshop'24 | 链接 | - |
| 2024.01 | 约翰尼如何说服大型语言模型越狱:重新思考说服力,通过人性化大型语言模型挑战AI安全(PAP) | arXiv | 链接 | 链接 |
| 2023.12 | 攻击之树:自动越狱黑盒大型语言模型(TAP) | NeurIPS'24 | 链接 | 链接 |
| 2023.12 | 让他们吐露真相!从(生产)大型语言模型中强制获取知识 | arXiv | 链接 | - |
| 2023.12 | 忽略这个标题,HackAPrompt:通过全球规模的提示黑客竞赛揭露大型语言模型的系统性漏洞 | ACL'24 | 链接 | - |
| 2023.11 | 面向语言模型的可扩展且可迁移黑盒越狱,通过角色调节(Persona) | NeurIPS Workshop'23 | 链接 | - |
| 2023.10 | 二十次查询内实现黑盒大型语言模型的越狱(PAIR) | NeurIPS'24 | 链接 | 链接 |
| 2023.10 | 针对大型语言模型的对抗性演示攻击(advICL) | EMNLP'24 | 链接 | - |
| 2023.10 | MASTERKEY:大型语言模型聊天机器人自动越狱(MASTERKEY) | NDSS'24 | 链接 | 链接 |
| 2023.10 | 攻击提示生成用于红队与大型语言模型防御(SAP) | EMNLP'23 | 链接 | 链接 |
| 2023.10 | 一个大型语言模型可以骗自己:基于提示的对抗性攻击(PromptAttack) | ICLR'24 | 链接 | 链接 |
| 2023.09 | 针对ChatGPT的多步隐私越狱攻击(MJP) | EMNLP Findings'23 | 链接 | 链接 |
| 2023.09 | 芝麻开门!大型语言模型的通用黑盒越狱(GA) | Applied Sciences'24 | 链接 | - |
| 2023.05 | 并非你所注册的:通过间接提示注入破坏现实世界中集成大型语言模型的应用程序 | CCS'23 | 链接 | 链接 |
| 2022.11 | 忽略先前提示:针对语言模型的攻击技术(PromptInject) | NeurIPS WorkShop'22 | 链接 | 链接 |
白盒攻击
| 年份 | 标题 | 地点 | 论文 | 代码 |
|---|---|---|---|---|
| 2025.08 | 别说不:通过抑制拒绝实现大语言模型越狱(DSN) | ACL'25 | 链接 | 链接 |
| 2025.03 | 引导而非强迫:通过移除多余约束提升大语言模型越狱攻击的可迁移性 | arXiv | 链接 | 链接 |
| 2025.02 | 基于优化的大语言模型越狱改进技术(I-GCG) | ICLR'25 | 链接 | 链接 |
| 2024.12 | 利用连续攻击实现大语言模型高效对抗训练 | NeurIPS'24 | 链接 | 链接 |
| 2024.11 | AmpleGCG-Plus:一种强大的对抗后缀生成模型,以更少尝试次数实现更高成功率的大语言模型越狱 | arXiv | 链接 | - |
| 2024.11 | DROJ:一种针对大语言模型的提示驱动攻击 | arXiv | 链接 | 链接 |
| 2024.11 | SQL注入越狱:大语言模型的结构性灾难 | arXiv | 链接 | 链接 |
| 2024.10 | 函数同伦:通过连续参数平滑离散优化实现大语言模型越狱攻击 | arXiv | 链接 | - |
| 2024.10 | AttnGCG:通过注意力操纵增强大语言模型越狱攻击 | arXiv | 链接 | 链接 |
| 2024.10 | 通过句子末尾MLP重新加权实现指令微调大语言模型越狱 | arXiv | 链接 | - |
| 2024.10 | 提升大语言模型越狱可迁移性的方法(SI-GCG) | arXiv | 链接 | - |
| 2024.10 | 迭代自适应大语言模型以增强越狱能力(ADV-LLM) | arXiv | 链接 | 链接 |
| 2024.08 | 通过不安全解码路径生成探测大语言模型的安全响应边界(JVD) | arXiv | 链接 | - |
| 2024.08 | 通过强制解码实现开源大语言模型越狱(EnDec) | ACL'24 | 链接 | - |
| 2024.07 | Best-of-Venom:通过注入中毒偏好数据攻击RLHF | COLM'24 | 链接 | - |
| 2024.07 | 语言模型中的拒绝行为由单一方向介导 | arXiv | 链接 | 链接 |
| 2024.07 | 重新审视针对语言模型的字符级对抗攻击 | ICML'24 | 链接 | 链接 |
| 2024.07 | Badllama 3:在几分钟内从Llama 3中移除安全微调(Badllama 3) | arXiv | 链接 | - |
| 2024.07 | SOS!针对开源大语言模型的软提示攻击 | arXiv | 链接 | - |
| 2024.06 | COLD-Attack:以隐蔽性和可控性实现大语言模型越狱(COLD-Attack) | ICML'24 | 链接 | 链接 |
| 2024.05 | 面向通用目标劫持的语言模型语义引导提示组织 | arXiv | 链接 | |
| 2024.05 | 通过自适应密集到稀疏约束优化实现高效大语言模型越狱 | NeurIPS'24 | 链接 | - |
| 2024.05 | AutoDAN:在对齐的大语言模型上生成隐蔽越狱提示(AutoDAN) | ICLR'24 | 链接 | 链接 |
| 2024.05 | AmpleGCG:学习一种通用且可迁移的对抗后缀生成模型,用于越狱开放和封闭的大语言模型(AmpleGCG) | arXiv | 链接 | 链接 |
| 2024.05 | 借助动量提升越狱攻击(MAC) | ICLR Workshop'24 | 链接 | 链接 |
| 2024.04 | AdvPrompter:面向大语言模型的快速自适应对抗提示生成(AdvPrompter) | arXiv | 链接 | 链接 |
| 2024.03 | 来自中毒人类反馈的通用越狱后门 | ICLR'24 | 链接 | - |
| 2024.02 | 用投影梯度下降攻击大语言模型(PGD) | arXiv | 链接 | - |
| 2024.02 | 打开大语言模型的潘多拉魔盒:通过表示工程实现大语言模型越狱(JRE) | arXiv | 链接 | - |
| 2024.02 | 以好奇心驱动的红队测试大语言模型(CRT) | arXiv | 链接 | 链接 |
| 2023.12 | AutoDAN:面向大语言模型的可解释梯度对抗攻击(AutoDAN) | arXiv | 链接 | 链接 |
| 2023.10 | 通过利用生成实现开源大语言模型的灾难性越狱 | ICLR'24 | 链接 | 链接 |
| 2023.06 | 通过离散优化自动审计大语言模型(ARCA) | ICML'23 | 链接 | 链接 |
| 2023.07 | 面向对齐语言模型的通用且可迁移的对抗攻击(GCG) | arXiv | 链接 | 链接 |
多轮攻击
| 时间 | 标题 | 地点 | 论文 | 代码 |
|---|---|---|---|---|
| 2025.04 | 通过注意力转移实现大型语言模型的多轮破解 | AAAI'25 | 链接 | - |
| 2025.04 | X-Teaming:基于自适应多智能体的多轮破解与防御 | arXiv | 链接 | 链接 |
| 2025.04 | 全局策略,局部适应:一种具有双层学习的多轮红队代理 | arXiv | 链接 | - |
| 2025.03 | 脚踏实地:一种针对大型语言模型的多轮破解方法 | arXiv | 链接 | 链接 |
| 2025.03 | 围攻:利用树搜索实现大型语言模型的自主多轮破解 | arXiv | 链接 | - |
| 2024.11 | MRJ-Agent:一种高效的多轮对话破解代理 | arXiv | 链接 | - |
| 2024.10 | 拼图游戏:将有害问题拆分以破解大型语言模型(JSP) | arXiv | 链接 | 链接 |
| 2024.10 | 针对大型语言模型的多轮破解攻击 | arXiv | 链接 | - |
| 2024.10 | 自我颠覆:通过自我发现线索实现多轮大型语言模型破解攻击 | arXiv | 链接 | 链接 |
| 2024.10 | 使用GOAT进行自动化红队测试:生成式进攻代理测试器 | arXiv | 链接 | - |
| 2024.09 | LLM防御尚未能抵御多轮人类破解攻击 | arXiv | 链接 | 链接 |
| 2024.09 | 红后:防范隐蔽多轮破解攻击的大型语言模型安全机制 | arXiv | 链接 | 链接 |
| 2024.08 | FRACTURED-SORRY-Bench:揭示对话回合中削弱拒绝效力及防御措施的攻击框架(自动多轮破解) | arXiv | 链接 | - |
| 2024.08 | 前沿模型中的新兴漏洞:多轮破解攻击 | arXiv | 链接 | 链接 |
| 2024.05 | CoA:基于上下文感知的多轮对话大型语言模型攻击链(CoA) | arXiv | 链接 | 链接 |
| 2024.04 | 太好了,现在写篇文章吧:Crescendo多轮大型语言模型破解攻击(Crescendo) | 微软Azure | 链接 | - |
针对基于RAG的大型语言模型的攻击
| 时间 | 标题 | 地点 | 论文 | 代码 |
|---|---|---|---|---|
| 2024.09 | 释放蠕虫并提取数据:利用破解手段升级基于RAG推理的攻击在规模和严重性上的效果 | arXiv | 链接 | 链接 |
| 2024.02 | 潘多拉:通过检索增强生成中毒实现GPT破解(潘多拉) | arXiv | 链接 | - |
多模态攻击
| 时间 | 标题 | 地点 | 论文 | 代码 |
|---|---|---|---|---|
| 2024.11 | 多模态生成模型的越狱攻击与防御:综述 | arXiv | 链接 | 链接 |
| 2024.10 | 通过逐步编辑实现针对图像生成模型的越狱链攻击 | arXiv | 链接 | - |
| 2024.10 | ColJailBreak:协作生成与编辑,用于越狱文本到图像深度生成 | NeurIPS'24 | 链接 | - |
| 2024.08 | 基于大语言模型代理的文本到图像模型越狱(Atlas) | arXiv | 链接 | - |
| 2024.07 | 图像转文本逻辑越狱:你的想象力能助你为所欲为 | arXiv | 链接 | - |
| 2024.06 | 通过双模态对抗提示越狱视觉语言模型 | arXiv | 链接 | 链接 |
| 2024.05 | 针对GPT-4o的语音越狱攻击 | arXiv | 链接 | 链接 |
| 2024.05 | 文本到图像生成AI系统的自动越狱 | ICML'24研讨会 | 链接 | 链接 |
| 2024.04 | 图像劫持:对抗性图像可在运行时控制生成模型 | arXiv | 链接 | 链接 |
| 2024.03 | 一张图胜过千言万语:对抗性跨提示在视觉语言模型上的迁移能力(CroPA) | ICLR'24 | 链接 | 链接 |
| 2024.03 | 分块越狱:针对多模态语言模型的组合式对抗攻击 | ICLR'24 | 链接 | - |
| 2024.03 | 重新思考基于迁移的对抗攻击中的模型集成 | ICLR'24 | 链接 | 链接 |
| 2024.02 | VLATTACK:利用预训练模型对视觉语言任务进行多模态对抗攻击 | NeurIPS'23 | 链接 | 链接 |
| 2024.02 | 针对多模态大型语言模型的越狱攻击 | arXiv | 链接 | - |
| 2024.01 | 通过系统提示的自对抗攻击越狱GPT-4V | arXiv | 链接 | - |
| 2024.03 | 视觉对抗样本越狱对齐大型语言模型 | AAAI'24 | 链接 | - |
| 2023.12 | OT攻击:通过最优传输优化增强视觉语言模型的对抗迁移能力(OT攻击) | arXiv | 链接 | - |
| 2023.12 | FigStep:通过排版视觉提示越狱大型视觉语言模型(FigStep) | arXiv | 链接 | 链接 |
| 2023.11 | SneakyPrompt:越狱文本到图像生成模型 | S&P'24 | 链接 | 链接 |
| 2023.11 | 关于评估大型视觉语言模型的对抗鲁棒性 | NeurIPS'23 | 链接 | 链接 |
| 2023.10 | 谷歌Bard对对抗性图像攻击有多鲁棒? | arXiv | 链接 | 链接 |
| 2023.08 | AdvCLIP:多模态对比学习中的下游无关对抗样本(AdvCLIP) | ACM MM'23 | 链接 | 链接 |
| 2023.07 | 集合级指导攻击:提升视觉语言预训练模型的对抗迁移能力(SGA) | ICCV'23 | 链接 | 链接 |
| 2023.07 | 关于多模态基础模型的对抗鲁棒性 | ICCV Workshop'23 | 链接 | - |
| 2022.10 | 迈向视觉语言预训练模型的对抗攻击 | arXiv | 链接 | 链接 |
越狱防御
基于学习的防御
| 时间 | 标题 | 举办地 | 论文 | 代码 |
|---|---|---|---|---|
| 2025.12 | 重新思考利用表征对比评分检测大型视觉语言模型的越狱行为 | arXiv'25 | 链接 | 链接 |
| 2025.07 | 将推理作为安全性的自适应防御 | NeurIPS'25 | 链接 | 链接 |
| 2025.04 | JailDAM:面向视觉语言模型的自适应记忆越狱检测 | COLM'25 | 链接 | 链接 |
| 2024.12 | 塑造安全边界:理解并防御大型语言模型中的越狱攻击 | arXiv'24 | 链接 | - |
| 2024.10 | 面向安全的大型语言模型微调 | arXiv'24 | 链接 | - |
| 2024.10 | MoJE:越狱专家混合,以朴素表格分类器作为提示攻击防护 | AAAI'24 | 链接 | - |
| 2024.08 | BaThe:通过将有害指令视为后门触发器来防御多模态大型语言模型中的越狱攻击(BaThe) | arXiv | 链接 | - |
| 2024.07 | DART:用于LLM安全性的深度对抗自动化红队测试 | arXiv | 链接 | - |
| 2024.07 | Eraser:通过遗忘有害知识防御大型语言模型中的越狱攻击(Eraser) | arXiv | 链接 | 链接 |
| 2024.07 | 安全遗忘:一种令人惊讶的有效且可推广的解决方案,用于防御越狱攻击 | arXiv | 链接 | 链接 |
| 2024.06 | 对抗性微调:防御LLM的越狱攻击 | arXiv | 链接 | - |
| 2024.06 | Jatmo:通过任务特定微调防御提示注入攻击(Jatmo) | arXiv | 链接 | 链接 |
| 2024.06 | 通过目标优先级防御大型语言模型免受越狱攻击(SafeDecoding) | ACL'24 | 链接 | 链接 |
| 2024.06 | 通过后门增强的安全对齐缓解基于微调的越狱攻击 | NeurIPS'24 | 链接 | 链接 |
| 2024.06 | 关于大型语言模型的提示驱动安全保障(DRO) | ICML'24 | 链接 | 链接 |
| 2024.06 | 鲁棒提示优化,用于防御语言模型免受越狱攻击(RPO) | NeurIPS'24 | 链接 | - |
| 2024.06 | 通过提示对抗性微调反击越狱攻击(PAT) | NeurIPS'24 | 链接 | 链接 |
| 2024.05 | 通过安全补丁实现大型语言模型全面而高效的后期安全对齐(SAFEPATCHING) | arXiv | 链接 | - |
| 2024.05 | 通过知识编辑净化大型语言模型(DINM) | ACL'24 | 链接 | 链接 |
| 2024.05 | 通过分层编辑防御大型语言模型免受越狱攻击 | arXiv | 链接 | 链接 |
| 2023.11 | MART:利用多轮自动红队测试提升LLM安全性(MART) | ACL'24 | 链接 | - |
| 2023.11 | 针对对齐语言模型的对抗性攻击的基础防御 | arXiv | 链接 | - |
| 2023.10 | Safe rlhf:安全的人类反馈强化学习 | arXiv | 链接 | 链接 |
| 2023.08 | 使用话语链进行大型语言模型的红队测试以实现安全对齐(RED-INSTRUCT) | arXiv | 链接 | 链接 |
| 2022.04 | 通过人类反馈的强化学习训练有益且无害的助手 | Anthropic | 链接 | - |
基于策略的防御
| 时间 | 标题 | 举办地 | 论文 | 代码 |
|---|---|---|---|---|
| 2025.12 | 压缩但妥协?对压缩大语言模型中越狱行为的研究 | NeurIPS-W | 链接 | 博客文章链接 |
| 2025.09 | (几乎)免费的LLM越狱检测! | arXiv | 链接 | 链接 |
| 2025.05 | 推理以防御:安全意识推理可保护大语言模型免受越狱攻击 | arXiv | 链接 | 链接 |
| 2024.11 | 快速响应:用少量示例缓解LLM越狱攻击 | arXiv | 链接 | 链接 |
| 2024.10 | RePD:通过检索式提示分解过程(RePD)防御越狱攻击 | arXiv | 链接 | - |
| 2024.10 | 防御指南(G4D):大语言模型稳健均衡防御的动态指导(G4D) | arXiv | 链接 | 链接 |
| 2024.10 | 越狱解药:通过大语言模型中的稀疏表示调整实现运行时安全与效用平衡 | arXiv | 链接 | - |
| 2024.09 | HSF:通过隐藏状态过滤防御越狱攻击 | arXiv | 链接 | 链接 |
| 2024.08 | EEG-Defender:通过大语言模型的早期退出生成防御越狱攻击(EEG-Defender) | arXiv | 链接 | - |
| 2024.08 | 前缀引导:为大语言模型提供方向盘,抵御越狱攻击(PG) | arXiv | 链接 | 链接 |
| 2024.08 | 自我评估作为对抗LLM敌对攻击的防御手段(自我评估) | arXiv | 链接 | 链接 |
| 2024.06 | 通过反向翻译防御LLM越狱攻击(反向翻译) | ACL Findings'24 | 链接 | 链接 |
| 2024.06 | SafeDecoding:通过安全意识解码防御越狱攻击(SafeDecoding) | ACL'24 | 链接 | 链接 |
| 2024.06 | 通过稳健对齐的LLM防御对齐破坏攻击 | ACL'24 | 链接 | - |
| 2024.06 | 披着羊皮的狼:通用嵌套越狱提示可轻易欺骗大语言模型(ReNeLLM) | NAACL'24 | 链接 | 链接 |
| 2024.06 | SMOOTHLLM:防御大语言模型免受越狱攻击 | arXiv | 链接 | 链接 |
| 2024.05 | 通过双重批评提示增强大语言模型应对归纳指令的能力(双重批评) | ACL'24 | 链接 | 链接 |
| 2024.05 | PARDEN,你能再说一遍吗?通过重复防御越狱攻击(PARDEN) | ICML'24 | 链接 | 链接 |
| 2024.05 | LLM自我防御:通过自我检查,LLM知道它们正在被欺骗 | ICLR Tiny Paper'24 | 链接 | 链接 |
| 2024.05 | GradSafe:通过安全关键梯度分析检测LLM不安全提示(GradSafe) | ACL'24 | 链接 | 链接 |
| 2024.05 | 大语言模型中的多语言越狱挑战 | ICLR'24 | 链接 | 链接 |
| 2024.05 | 梯度袖口:通过探索拒绝损失景观检测大语言模型越狱攻击 | NeurIPS'24 | 链接 | - |
| 2024.05 | AutoDefense:针对越狱攻击的多智能体LLM防御 | arXiv | 链接 | 链接 |
| 2024.05 | Bergeron:通过基于良知的对齐框架对抗敌对攻击(Bergeron) | arXiv | 链接 | 链接 |
| 2024.05 | 仅需少量上下文示范即可实现越狱与防护对齐的语言模型(ICD) | arXiv | 链接 | - |
| 2024.04 | 用信息瓶颈保护你的LLM | NeurIPS'24 | 链接 | 链接 |
| 2024.04 | 修剪以保护:在无需微调的情况下提高对齐LLM的越狱抵抗能力 | arXiv | 链接 | 链接 |
| 2024.02 | 认证LLM对抗敌对提示的安全性 | arXiv | 链接 | 链接 |
| 2024.02 | 突破封锁:通过自我精炼重新定义LLM防御越狱攻击 | arXiv | 链接 | - |
| 2024.02 | 通过语义平滑防御大语言模型越狱攻击(SEMANTICSMOOTH) | arXiv | 链接 | 链接 |
| 2024.01 | 意图分析让LLM成为优秀的越狱防御者(IA) | arXiv | 链接 | 链接 |
| 2024.01 | 约翰尼如何说服LLM越狱:重新思考说服力,以人性化LLM挑战AI安全(PAP) | ACL'24 | 链接 | 链接 |
| 2023.12 | 通过自我提醒防御ChatGPT越狱攻击(自我提醒) | Nature Machine Intelligence | 链接 | 链接 |
| 2023.11 | 用困惑度检测语言模型攻击 | arXiv | 链接 | - |
| 2023.10 | RAIN:你的语言模型无需微调即可自我对齐(RAIN) | ICLR'24 | 链接 | 链接 |
监控模型
| 时间 | 标题 | 地点 | 论文 | 代码 |
|---|---|---|---|---|
| 2026.02 | GuardReasoner-Omni:一种基于推理的文本、图像和视频多模态护栏 | arXiv'26 | 链接 | 链接 |
| 2025.12 | OmniGuard:具有深思熟虑推理的统一全模态护栏 | arXiv'25 | 链接 | - |
| 2025.10 | 三思而后行:通过渐进式自我反思实现安全防护(PSR) | EMNLP'25 | 链接 | 链接 |
| 2025.05 | GuardReasoner-VL:通过强化推理保障VLMs的安全(GuardReasoner-VL) | NeurIPS'25 | 链接 | 链接 |
| 2025.04 | X-Guard:用于内容审核的多语言护栏代理(X-Guard) | arXiv'25 | 链接 | 链接 |
| 2025.02 | ThinkGuard:深思熟虑的慢思考带来谨慎的护栏(ThinkGuard) | arXiv'25 | 链接 | 链接 |
| 2025.02 | 宪法分类器:抵御数千小时红队测试中的通用越狱攻击 | arXiv'25 | 链接 | - |
| 2025.01 | GuardReasoner:迈向基于推理的LLM安全防护(GuardReasoner) | ICLR Workshop'25 | 链接 | 链接 |
| 2024.12 | 使用剪枝语言模型进行轻量级安全分类(Sentence-BERT) | arXiv'24 | 链接 | - |
| 2024.11 | GuardFormer:用于高效安全防护的护栏指令预训练(GuardFormer) | Meta | 链接 | - |
| 2024.11 | Llama Guard 3 Vision:保障人机图像理解对话的安全性(LLaMA Guard 3 Vision) | Meta | 链接 | 链接 |
| 2024.11 | AEGIS2.0:用于对齐LLM护栏的多样化AI安全数据集与风险分类法(Aegis2.0) | Nvidia, NeurIPS'24 Workshop | 链接 | - |
| 2024.11 | 使用微调BERT嵌入进行轻量级安全护栏(Sentence-BERT) | arXiv'24 | 链接 | - |
| 2024.11 | STAND-Guard:一种小型任务自适应内容审核模型(STAND-Guard) | Microsoft | 链接 | - |
| 2024.10 | VLMGuard:利用未标注数据防御恶意提示对VLM的攻击 | arXiv | 链接 | - |
| 2024.09 | AEGIS:基于LLM专家集合的在线自适应AI内容安全审核(Aegis) | Nvidia | 链接 | 链接 |
| 2024.09 | Llama 3.2:以开放、可定制的模型革新边缘AI与视觉技术(LLaMA Guard 3) | Meta | 链接 | 链接 |
| 2024.08 | ShieldGemma:基于Gemma的生成式AI内容审核(ShieldGemma) | 链接 | 链接 | |
| 2024.07 | WildGuard:面向LLM安全风险、越狱与拒绝的开放式一站式审核工具(WildGuard) | NeurIPS'24 | 链接 | 链接 |
| 2024.06 | GuardAgent:通过知识驱动的推理保障LLM代理的安全(GuardAgent) | arXiv'24 | 链接 | - |
| 2024.06 | R2-Guard:通过知识增强逻辑推理实现稳健推理的LLM护栏(R2-Guard) | arXiv | 链接 | 链接 |
| 2024.04 | Llama Guard 2 | Meta | 链接 | 链接 |
| 2024.03 | AdaShield:通过自适应屏蔽提示保障多模态大语言模型免受结构化攻击(AdaShield) | ECCV'24 | 链接 | 链接 |
| 2023.12 | Llama Guard:基于LLM的人机对话输入输出安全防护(LLaMA Guard) | Meta | 链接 | 链接 |
审核API
| 时间 | 标题 | 地点 | 论文 | 代码 |
|---|---|---|---|---|
| 2023.08 | 使用GPT-4进行内容审核(GPT-4) | OpenAI | 链接 | - |
| 2023.02 | 面向现实世界中不良内容检测的整体方法(OpenAI审核端点) | AAAI OpenAI | 链接 | 链接 |
| 2022.02 | 新一代观点API:高效多语言字符级Transformer(观点API) | KDD Google | 链接 | 链接 |
| - | Azure AI 内容安全 | Microsoft Azure | - | 链接 |
| - | Detoxify | unitary.ai | - | 链接 |
| - | promptfoo - 大型语言模型红队框架,支持自适应多轮攻击(PAIR、攻击树、渐强攻击) | promptfoo | - | 链接 |
评估与分析
| 时间 | 标题 | 地点 | 论文 | 代码 |
|---|---|---|---|---|
| 2026.02 | AgentLeak:多智能体大语言模型系统中隐私泄露的全栈基准测试 | arXiv | 链接 | 链接 |
| 2026.02 | babel-bench:面向大语言模型的多语言古典语言安全基准测试(babel-bench) | ICLR'26 | 链接 | 链接 |
| 2025.12 | 压缩但被攻破?对压缩大语言模型中越狱攻击的研究 | NeurIPS-W | 链接 | 博客文章链接 |
| 2025.08 | JADES:一种基于分解评分的越狱评估通用框架 | arXiv | 链接 | 链接 |
| 2025.06 | 激活近似可能在对齐的大语言模型中引发安全漏洞:全面分析与防御 | USENIX Security'25 | 链接 | 链接 |
| 2025.05 | 视觉语言模型在野外是否安全?基于模因的基准测试研究 | EMNLP'25 | 链接 | 链接 |
| 2025.05 | PandaGuard:针对越狱攻击的大语言模型安全性的系统性评估 | arXiv | 链接 | 链接 |
| 2025.05 | 评估量化大语言模型的安全风险及量化感知的安全补丁 | ICML'25 | 链接 | 链接 |
| 2025.02 | GuidedBench:为越狱评估配备指南 | arXiv | 链接 | 链接 |
| 2024.12 | Agent-SafetyBench:评估大语言模型代理的安全性 | arXiv | 链接 | 链接 |
| 2024.11 | 安全且可靠的大型语言模型全球挑战 第一赛道 | arXiv | 链接 | - |
| 2024.11 | JailbreakLens:从表征与电路角度解读越狱机制 | arXiv | 链接 | - |
| 2024.11 | VLLM安全悖论:越狱攻击与防御的双重易感性 | arXiv | 链接 | - |
| 2024.11 | HarmLevelBench:评估危害等级合规性及量化对模型对齐的影响 | arXiv | 链接 | - |
| 2024.11 | ChemSafetyBench:化学领域大语言模型安全性的基准测试 | arXiv | 链接 | 链接 |
| 2024.11 | GuardBench:针对护栏模型的大规模基准测试 | EMNLP'24 | 链接 | 链接 |
| 2024.11 | 提示中的哪些特征会越狱大语言模型?探究攻击背后的机制 | arXiv | 链接 | 链接 |
| 2024.11 | 大语言模型护栏在处理多语言毒性方面的基准测试 | arXiv | 链接 | 链接 |
| 2024.10 | JAILJUDGE:一种综合越狱判断基准,配备多智能体增强解释评估框架 | arXiv | 链接 | 链接 |
| 2024.10 | 大语言模型有政治正确性吗?分析人工智能系统的伦理偏见与越狱漏洞 | arXiv | 链接 | 链接 |
| 2024.10 | 大语言模型越狱的真实威胁模型 | arXiv | 链接 | 链接 |
| 2024.10 | 对抗后缀也可能成为特征! | arXiv | 链接 | 链接 |
| 2024.09 | JAILJUDGE:一种综合越狱 | arXiv | 链接 | 链接 |
| 2024.09 | 文本到图像模型的多模态语用越狱 | arXiv | 链接 | 链接 |
| 2024.08 | ShieldGemma:基于Gemma的生成式人工智能内容审核(ShieldGemma) | arXiv | 链接 | 链接 |
| 2024.08 | MMJ-Bench:视觉语言模型越狱攻击与防御的全面研究(MMJ-Bench) | arXiv | 链接 | 链接 |
| 2024.08 | 不可能的任务:从越狱大语言模型到更安全的语言模型的统计视角 | NeurIPS'24 | 链接 | - |
| 2024.07 | 为大型语言模型红队行动构建威胁模型 | arXiv | 链接 | 链接 |
| 2024.07 | JailBreakV-28K:评估多模态大语言模型抵御越狱攻击的鲁棒性基准测试 | arXiv | 链接 | 链接 |
| 2024.07 | 大语言模型越狱攻击与防御综述 | arXiv | 链接 | - |
| 2024.06 | “未对齐”并不等于“恶意”:警惕大语言模型越狱的幻觉 | arXiv | 链接 | 链接 |
| 2024.06 | 大规模野外越狱:从野外越狱到更安全的语言模型(WildTeaming) | NeurIPS'24 | 链接 | 链接 |
| 2024.06 | 从大语言模型到多模态大语言模型:探索多模态越狱的格局 | arXiv | 链接 | - |
| 2024.06 | 受威胁的AI代理:关键安全挑战与未来路径的综述 | arXiv | 链接 | - |
| 2024.06 | MM-SafetyBench:多模态大语言模型安全评估基准测试(MM-SafetyBench) | arXiv | 链接 | - |
| 2024.06 | ArtPrompt:基于ASCII艺术的对齐大语言模型越狱攻击(VITC) | ACL'24 | 链接 | 链接 |
| 2024.06 | 技巧大全:大语言模型越狱攻击的基准测试 | NeurIPS'24 | 链接 | 链接 |
| 2024.06 | JailbreakZoo:大语言模型与视觉语言模型越狱的调查、格局与展望(JailbreakZoo) | arXiv | 链接 | 链接 |
| 2024.06 | 大语言模型对齐的根本局限性 | arXiv | 链接 | - |
| 2024.06 | JailbreakBench:大语言模型越狱的开放鲁棒性基准测试(JailbreakBench) | NeurIPS'24 | 链接 | 链接 |
| 2024.06 | 理解大语言模型越狱攻击:一种表征空间分析 | arXiv | 链接 | 链接 |
| 2024.06 | JailbreakEval:评估大语言模型越狱尝试的集成工具包(JailbreakEval) | arXiv | 链接 | 链接 |
| 2024.05 | 重新思考如何评估语言模型越狱 | arXiv | 链接 | 链接 |
| 2024.05 | 通过双评提示增强大语言模型应对归纳指令的能力(INDust) | arXiv | 链接 | 链接 |
| 2024.05 | 针对集成大语言模型应用的提示注入攻击 | arXiv | 链接 | - |
| 2024.05 | 诱使大语言模型违抗:越狱的正式化、分析与检测 | LREC-COLING'24 | 链接 | 链接 |
| 2024.05 | 大语言模型越狱攻击与防御技术——全面研究 | NDSS'24 | 链接 | - |
| 2024.05 | 通过提示工程越狱ChatGPT:一项实证研究 | arXiv | 链接 | - |
| 2024.05 | 通过知识编辑净化大语言模型(SafeEdit) | ACL'24 | 链接 | 链接 |
| 2024.04 | JailbreakLens:大语言模型越狱攻击的可视化分析(JailbreakLens) | arXiv | 链接 | - |
| 2024.03 | 大语言模型的指令中心响应有多(不)道德?揭示安全护栏对有害查询的脆弱性(TECHHAZARDQA) | arXiv | 链接 | 链接 |
| 2024.03 | 别听我的:理解和探索大语言模型的越狱提示 | USENIX Security | 链接 | - |
| 2024.03 | EasyJailbreak:大语言模型越狱的统一框架(EasyJailbreak) | arXiv | 链接 | 链接 |
| 2024.02 | 大语言模型越狱攻击的全面评估 | arXiv | 链接 | - |
| 2024.02 | SPML:一种用于防御语言模型免受提示攻击的DSL | arXiv | 链接 | - |
| 2024.02 | 强迫大语言模型做并透露(几乎)任何事 | arXiv | 链接 | - |
| 2024.02 | 针对空越狱的STRONGREJECT(StrongREJECT) | NeurIPS'24 | 链接 | 链接 |
| 2024.02 | ToolSword:揭示大语言模型在三个阶段工具学习中的安全问题 | ACL'24 | 链接 | 链接 |
| 2024.02 | HarmBench:自动化红队与稳健拒绝的标准评估框架(HarmBench) | arXiv | 链接 | 链接 |
| 2023.12 | 面向目标的提示攻击与大语言模型的安全评估 | arXiv | 链接 | 链接 |
| 2023.12 | 防御的艺术:大语言模型防御策略在安全性和过度防御方面的系统性评估与分析 | arXiv | 链接 | - |
| 2023.12 | 大语言模型攻击技术、实现与缓解策略的全面调查 | UbiSec'23 | 链接 | - |
| 2023.11 | 召唤恶魔并束缚它:大语言模型野外红队行动的扎根理论 | arXiv | 链接 | - |
| 2023.11 | 这张图片里有多少独角兽?面向视觉大语言模型的安全评估基准测试 | arXiv | 链接 | 链接 |
| 2023.11 | 利用欺骗技术和说服原则攻击大语言模型(LLMs) | arXiv | 链接 | - |
| 2023.10 | 探索、建立、利用:从零开始的红队语言模型 | arXiv | 链接 | - |
| 2023.10 | 由对抗攻击揭示的大语言模型漏洞调查 | arXiv | 链接 | - |
| 2023.10 | 微调对齐语言模型会损害安全性,即使用户并无此意图!(HEx-PHI) | ICLR'24 (oral) | 链接 | 链接 |
| 2023.08 | 使用链式话语对大语言模型进行红队行动以实现安全对齐(RED-EVAL) | arXiv | 链接 | 链接 |
| 2023.08 | 大语言模型用于非法目的:威胁、预防措施与漏洞 | arXiv | 链接 | - |
| 2023.07 | 越狱了:大语言模型安全训练为何失败?(越狱了) | NeurIPS'23 | 链接 | - |
| 2023.08 | 大语言模型用于非法目的:威胁、预防措施与漏洞 | arXiv | 链接 | - |
| 2023.08 | 从ChatGPT到ThreatGPT:生成式AI在网络安全与隐私中的影响 | IEEE Access | 链接 | - |
| 2023.07 | 大语言模型审查:是机器学习挑战还是计算机安全问题? | arXiv | 链接 | - |
| 2023.07 | 对齐语言模型的通用且可迁移的对抗攻击(AdvBench) | arXiv | 链接 | 链接 |
| 2023.06 | DecodingTrust:GPT模型可信度的全面评估 | NeurIPS'23 | 链接 | 链接 |
| 2023.04 | 中国大语言模型的安全评估 | arXiv | 链接 | 链接 |
| 2023.02 | 利用大语言模型的程序行为:通过标准安全攻击实现双重用途 | arXiv | 链接 | - |
| 2022.11 | 红队语言模型以减少危害:方法、扩展行为与经验教训 | arXiv | 链接 | - |
| 2022.02 | 用语言模型进行红队语言模型 | arXiv | 链接 | |
| 2026.03 | 评估与对齐,经典论文 | Manning | 链接 | - |
应用
| 时间 | 标题 | 地点 | 论文 | 代码 |
|---|---|---|---|---|
| 2025.12 | 压缩但已妥协?对压缩大语言模型中越狱行为的研究 | NeurIPS-W | 链接 | 博客文章链接 |
| 2025.08 | 超越越狱:揭示更隐蔽、更广泛的因对齐失败引发的大语言模型安全风险 | arXiv | 链接 | 链接 |
| 2024.11 | 通过弹窗攻击视觉语言计算机代理 | arXiv | 链接 | 链接 |
| 2024.10 | 越狱控制的机器人(ROBOPAIR) | arXiv | 链接 | 链接 |
| 2024.10 | SMILES提示:化学合成中大语言模型越狱攻击的新方法 | arXiv | 链接 | 链接 |
| 2024.10 | 欺骗自动大语言模型基准测试:空模型也能取得高胜率 | arXiv | 链接 | 链接 |
| 2024.09 | 角色破解:角色扮演系统中的角色幻觉作为越狱攻击 | arXiv | 链接 | - |
| 2024.08 | 一个被越狱的大语言模型可能造成严重危害:基于大语言模型的应用程序易受PromptWare(APwT)攻击 | arXiv | 链接 | - |
其他相关优秀仓库
- Awesome-LM-SSP
- llm-sp
- awesome-llm-security
- Awesome-LLM-Safety
- Awesome-LRMs-Safety
- Awesome-LALMs-Jailbreak
- Awesome-Embodied-AI-Safety
贡献者
(回到顶部)
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。











