[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-corca-ai--awesome-llm-security":3,"tool-corca-ai--awesome-llm-security":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":79,"owner_website":81,"owner_url":82,"languages":79,"stars":83,"forks":84,"last_commit_at":85,"license":79,"difficulty_score":86,"env_os":87,"env_gpu":88,"env_ram":88,"env_deps":89,"category_tags":92,"github_topics":93,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":98,"updated_at":99,"faqs":100,"releases":101},2363,"corca-ai\u002Fawesome-llm-security","awesome-llm-security","A curation of awesome tools, documents and projects about LLM Security.","awesome-llm-security 是一个专注于大语言模型（LLM）安全领域的开源资源合集，旨在为社区提供一份全面、高质量的工具、学术论文和项目清单。随着大模型在各行各业的广泛应用，其面临的安全挑战日益严峻，例如如何通过“越狱”攻击绕过模型限制、利用多模态输入进行指令注入、窃取敏感提示词或植入后门等。awesome-llm-security 正是为了解决这些安全隐患而生，它系统性地梳理了从白盒攻击、黑盒攻击到防御策略、平台安全及行业综述的各类前沿成果。\n\n该资源库特别适合 AI 安全研究人员、大模型开发者以及关注算法伦理的技术决策者使用。研究者可以在此快速定位最新的攻击与防御论文，追踪学术动态；开发者则能利用收录的基准测试（Benchmark）和开源工具，对自身模型进行压力测试和安全加固。其独特亮点在于不仅分类详尽，覆盖了视觉对抗样本、隐私攻击等细分场景，还贴心地通过 Moonlight 平台提供论文摘要与原文对照，极大提升了文献调研的效率。无论是想深入了解 LLM 脆弱性，还是致力于构建更鲁棒的 AI 应用，awesome-llm-security 都是不可或缺的导航指南。","# Awesome LLM Security [![Awesome](https:\u002F\u002Fcdn.rawgit.com\u002Fsindresorhus\u002Fawesome\u002Fd7305f38d29fed78fa85652e3a63e154dd8e8829\u002Fmedia\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fsindresorhus\u002Fawesome)\n\nA curation of awesome tools, documents and projects about LLM Security.\n\nContributions are always welcome. Please read the [Contribution Guidelines](CONTRIBUTING.md) before contributing.\n\n> [!NOTE] \n> ⚡ For efficient research navigation, we’re sharing PDFs via [Moonlight](https:\u002F\u002Fwww.themoonlight.io\u002F), which provides summaries alongside the original paper.\n\n## Table of Contents\n\n- [Awesome LLM Security ](#awesome-llm-security-)\n  - [Table of Contents](#table-of-contents)\n  - [Papers](#papers)\n    - [White-box attack](#white-box-attack)\n    - [Black-box attack](#black-box-attack)\n    - [Backdoor attack](#backdoor-attack)\n    - [Fingerprinting](#fingerprinting)\n    - [Defense](#defense)\n    - [Platform Security](#platform-security)\n    - [Survey](#survey)\n  - [Benchmark](#benchmark)\n  - [Tools](#tools)\n  - [Articles](#articles)\n  - [Other Awesome Projects](#other-awesome-projects)\n  - [Other Useful Resources](#other-useful-resources)\n\n## Papers\n\n### White-box attack\n- \"Visual Adversarial Examples Jailbreak Large Language Models\", 2023-06, AAAI(Oral) 24, `multi-modal`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F9e1233aa-e417-448a-9032-05a11bff5a66) [[repo]](https:\u002F\u002Fgithub.com\u002FUnispac\u002FVisual-Adversarial-Examples-Jailbreak-Large-Language-Models)\n- \"Are aligned neural networks adversarially aligned?\", 2023-06, NeurIPS(Poster) 23, `multi-modal`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F282d463d-f9ce-4759-9e97-38b72c1200a7)\n- \"(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs\", 2023-07, `multi-modal` [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F520e644a-b4f9-497f-9ebf-d6da198699aa)\n- \"Universal and Transferable Adversarial Attacks on Aligned Language Models\", 2023-07, `transfer`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F5fc39128-9efa-49b3-8582-a909bab40dd3) [[repo]](https:\u002F\u002Fgithub.com\u002Fllm-attacks\u002Fllm-attacks) [[page]](https:\u002F\u002Fllm-attacks.org\u002F)\n- \"Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models\", 2023-07, `multi-modal`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F5409b2f8-3f70-4cee-bcf3-01563877acf8)\n- \"Image Hijacking: Adversarial Images can Control Generative Models at Runtime\", 2023-09, `multi-modal`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fb06630ff-1269-4765-86ed-0c79563402c1) [[repo]](https:\u002F\u002Fgithub.com\u002Feuanong\u002Fimage-hijacks) [[site]](https:\u002F\u002Fimage-hijacks.github.io)\n- \"Weak-to-Strong Jailbreaking on Large Language Models\", 2024-04, `token-prob`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Ff8ec09ce-ebe5-4d59-ab7f-51fa27a4805e) [[repo]](https:\u002F\u002Fgithub.com\u002FXuandongZhao\u002Fweak-to-strong)\n\n### Black-box attack\n- \"Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection\", 2023-02, AISec@CCS 23 [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F8e338d56-34fc-411f-8f5f-2746997d7927)\n- \"Jailbroken: How Does LLM Safety Training Fail?\", 2023-07, NeurIPS(Oral) 23, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F1b53328c-f894-443b-8818-7e1d35580202)\n- \"Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models\", 2023-07, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F4d35806f-3e25-4b28-abb3-2ea94b7246bd) [[repo]](https:\u002F\u002Fgithub.com\u002Fqiuhuachuan\u002Flatent-jailbreak\u002Ftree\u002Fmain)\n- \"Effective Prompt Extraction from Language Models\", 2023-07, `prompt-extraction`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F9c059d79-6fac-47ad-93df-49db7e6bf1be)\n- \"Multi-step Jailbreaking Privacy Attacks on ChatGPT\", 2023-04, EMNLP 23, `privacy`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Ffec9d235-0578-4ec1-bf6a-b2b0f7049b44)\n- \"LLM Censorship: A Machine Learning Challenge or a Computer Security Problem?\", 2023-07, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fb638c2fa-7808-48ba-a624-1b94947bd63d)\n- \"Jailbreaking chatgpt via prompt engineering: An empirical study\", 2023-05, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fc63fb3e0-9767-45a9-8ef5-7d0438405fa6)\n- \"Prompt Injection attack against LLM-integrated Applications\", 2023-06, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F9f08a762-e3b2-4154-9696-60ade71b1a23) [[repo]](https:\u002F\u002Fgithub.com\u002Fliu00222\u002FOpen-Prompt-Injection)\n- \"MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots\", 2023-07, `time-side-channel`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Faee61233-baf5-4be7-8ac5-a012b7e0a821)\n- \"GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher\", 2023-08, ICLR 24, `cipher`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F56f16d1d-ae59-4ef0-b4f1-ba78befc6e84) [[repo]](https:\u002F\u002Fgithub.com\u002FRobustNLP\u002FCipherChat)\n- \"Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and Vulnerabilities\", 2023-08, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F8d52b850-83e9-4a32-bbd3-9e6d7da8a63b)\n- \"Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs\", 2023-08, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fb3ed2c03-9cca-4717-bab1-389643641bee) [[repo]](https:\u002F\u002Fgithub.com\u002FLibr-AI\u002Fdo-not-answer) [[dataset]](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLibrAI\u002Fdo-not-answer)\n- \"Detecting Language Model Attacks with Perplexity\", 2023-08, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F4b510f47-9a01-425a-b4e3-a2fc77623239)\n- \"Open Sesame! Universal Black Box Jailbreaking of Large Language Models\", 2023-09, `gene-algorithm`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F61002df2-31c3-4c8d-ac30-165bd46d8dc7)\n- \"Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!\", 2023-10, ICLR(oral) 24, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F5d78aec9-b6a6-4b02-9104-cca3fedf38fd) [[repo]](https:\u002F\u002Fgithub.com\u002FLLM-Tuning-Safety\u002FLLMs-Finetuning-Safety) [[site]](https:\u002F\u002Fllm-tuning-safety.github.io\u002F) [[dataset]](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLLM-Tuning-Safety\u002FHEx-PHI)\n- \"AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models\", 2023-10, ICLR(poster) 24, `gene-algorithm`, `new-criterion`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F00bd272c-616c-4219-a5b9-249b3dd04e19)\n- \"Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations\", 2023-10, CoRR 23, `ICL`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F66225baa-8a69-4c54-a0e5-9c10c5a750e4)\n- \"Multilingual Jailbreak Challenges in Large Language Models\", 2023-10, ICLR(poster) 24, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fb632c951-861c-4c12-8254-315ef0e074c9) [[repo]](https:\u002F\u002Fgithub.com\u002FDAMO-NLP-SG\u002Fmultilingual-safety-for-LLMs)\n- \"Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation\", 2023-11, SoLaR(poster) 24, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F540ebc2d-33bb-488f-8cc6-6f2886ffe279)\n- \"DeepInception: Hypnotize Large Language Model to Be Jailbreaker\", 2023-11, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fc57a3c8c-50a5-4a49-8f99-b1eec1a9b2b1) [[repo]](https:\u002F\u002Fgithub.com\u002Ftmlr-group\u002FDeepInception) [[site]](https:\u002F\u002Fdeepinception.github.io\u002F)\n- \"A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily\", 2023-11, NAACL 24, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Ffd52e4ff-efb3-471b-abf1-ec689418e0bf) [[repo]](https:\u002F\u002Fgithub.com\u002FNJUNLP\u002FReNeLLM)\n- \"AutoDAN: Automatic and Interpretable Adversarial Attacks on Large Language Models\", 2023-10, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fc340e5ed-c8d2-4b15-affe-aaad912943bd)\n- \"Language Model Inversion\", 2023-11, ICLR(poster) 24, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fd0615bef-03b4-4e2b-8bff-1b19e15c0056) [[repo]](https:\u002F\u002Fgithub.com\u002Fjxmorris12\u002Fvec2text)\n- \"An LLM can Fool Itself: A Prompt-Based Adversarial Attack\", 2023-10, ICLR(poster) 24, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F193ec3b5-78ae-483b-adf5-aa6684919685) [[repo]](https:\u002F\u002Fgithub.com\u002FGodXuxilie\u002FPromptAttack)\n- \"GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts\", 2023-09, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F2ebb8387-1e7a-4607-a309-fcd46a99d2be) [[repo]](https:\u002F\u002Fgithub.com\u002Fsherdencooper\u002FGPTFuzz) [[site]](https:\u002F\u002Fgithub.com\u002Fsherdencooper\u002FGPTFuzz)\n- \"Many-shot Jailbreaking\", 2024-04, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F4db82652-210c-45cc-942b-032a34e03930)\n- \"Rethinking How to Evaluate Language Model Jailbreak\", 2024-04, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F44eaf8b8-2f20-4d35-a438-1fada8e091fc) [[repo]](https:\u002F\u002Fgithub.com\u002Fcontrollability\u002Fjailbreak-evaluation)\n- \"Confidence Elicitation: A New Attack Vector for Large Language Models\", 2025-02, ICLR(poster) 25 [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F156c1cb3-c9ea-443d-9cfc-3f494f711df5) [[repo]](https:\u002F\u002Fgithub.com\u002FAniloid2\u002FConfidence_Elicitation_Attacks)\n- \"Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy\", 2025-03, CVPR 25 [[paper]](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.20823) [[repo]](https:\u002F\u002Fgithub.com\u002Fnaver-ai\u002FJOOD)\n\n### Backdoor attack\n- \"BITE: Textual Backdoor Attacks with Iterative Trigger Injection\", 2022-05, ACL 23, `defense` [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F04ad5e28-6f64-46b0-8714-64a845cad49e)\n- \"Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models\", 2023-05, EMNLP 23, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fec305746-2f9c-49d1-bf6b-020629578bd5)\n- \"Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection\", 2023-07, NAACL 24, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Ff4d75f4b-d811-4509-8b15-8bf7c6e45288) [[repo]](https:\u002F\u002Fgithub.com\u002Fwegodev2\u002Fvirtual-prompt-injection) [[site]](https:\u002F\u002Fpoison-llm.github.io\u002F)\n\n### Fingerprinting\n- \"Instructional Fingerprinting of Large Language Models\", 2024-01, NAACL 24 [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F335c578a-1826-484e-bc00-6dc8c83d7c20) [[repo]](https:\u002F\u002Fgithub.com\u002Fcnut1648\u002FModel-Fingerprint) [[site]](https:\u002F\u002Fcnut1648.github.io\u002FModel-Fingerprint\u002F)\n- \"TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification\", 2024-02, ACL 24 (findings) [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F393cf159-106c-4a35-8f64-3de459a0cba4) [[repo]](https:\u002F\u002Fgithub.com\u002Fparameterlab\u002Ftrap) [[video]](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=9PdvAaUVZ28) [[poster]](https:\u002F\u002Fgubri.eu\u002Fpdf\u002FPoster_TRAP_MGubri.pdf)\n- \"LLMmap: Fingerprinting For Large Language Models\", 2024-07, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fb1223716-8fad-4d90-8a36-cce960514bab) [[repo]](https:\u002F\u002Fgithub.com\u002Fpasquini-dario\u002FLLMmap)\n\n### Defense\n- \"Baseline Defenses for Adversarial Attacks Against Aligned Language Models\", 2023-09, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F77b67179-78ce-4a9b-99de-1db2213d85cb) [[repo]](https:\u002F\u002Fgithub.com\u002Fneelsjain\u002Fbaseline-defenses)\n- \"LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked\", 2023-08, ICLR 24 Tiny Paper, `self-filtered`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F2d66d34b-5666-4b1f-aa9e-16396c6f4df3) [[repo]](https:\u002F\u002Fgithub.com\u002Fpoloclub\u002Fllm-self-defense) [[site]](https:\u002F\u002Fmphute.github.io\u002Fpapers\u002Fllm-self-defense)\n- \"Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM\", 2023-09, `random-mask-filter`, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F1a368b95-9e71-43a8-a9c6-5555ec6e925d)\n- \"Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models\", 2023-12, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F2ccdff05-ed06-4fb8-a2b1-4ba1b567acec) [[repo]](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FBIPIA)\n- \"AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks\", 2024-03, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F6a5de986-c838-4e42-8abc-675fcc5908db) [[repo]](https:\u002F\u002Fgithub.com\u002FXHMY\u002FAutoDefense)\n- \"Protecting Your LLMs with Information Bottleneck\", 2024-04, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F677201ce-a95f-4639-94d5-860ee89a8280) [[repo]](https:\u002F\u002Fgithub.com\u002Fzichuan-liu\u002FIB4LLMs)\n- \"PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition\", 2024-05, ICML 24, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fbb878c6e-411f-4af5-8883-5c5330007488) [[repo]](https:\u002F\u002Fgithub.com\u002FEd-Zh\u002FPARDEN)\n- “Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs”, 2024-06, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fd7a0cdb8-dd4d-47f7-83e7-ece62e0f42a0)\n- \"Improving Alignment and Robustness with Circuit Breakers\", 2024-06, NeurIPS 24, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F3d4b1d35-3e81-4a66-b48a-775896ce708a), [[repo]](https:\u002F\u002Fgithub.com\u002FGraySwanAI\u002Fcircuit-breakers)\n\n### Platform Security\n- \"LLM Platform Security: Applying a Systematic Evaluation Framework to OpenAI’s ChatGPT Plugins\", 2023-09, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Ffdb16919-a931-4690-bbf0-602d6feb56e5) [[repo]](https:\u002F\u002Fgithub.com\u002Fllm-platform-security\u002Fchatgpt-plugin-eval)\n\n### Survey\n- \"Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks\", 2023-10, ACL 24, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F51b7e82c-069f-4448-8a43-9468fb0bb8cf)\n- \"Security and Privacy Challenges of Large Language Models: A Survey\", 2024-02, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F3a962e21-a3a9-45b0-95bb-303cedf1a9cc)\n- \"Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models\", 2024-03, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F9acc7a47-98bf-4509-a931-e7b548df9d23)\n- \"Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs)\", 2024-07, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F8004eebc-df88-4150-8292-20e234172066)\n\n## Benchmark\n- \"JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models\", 2024-03, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F2e9cecdf-c6ec-43c7-ba8b-af9a8ee3a3c9), [[repo]](https:\u002F\u002Fgithub.com\u002FJailbreakBench\u002Fjailbreakbench)\n- \"AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents\", 2024-06, NeurIPS 24, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F5a567ace-0218-4c76-9018-6f99a93df7cd) [[repo]](https:\u002F\u002Fgithub.com\u002Fethz-spylab\u002Fagentdojo) [[site]](https:\u002F\u002Fagentdojo.spylab.ai\u002F)\n- \"Formalizing and Benchmarking Prompt Injection Attacks and Defenses\", 2024-08, USENIX Security 24, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fcd17769a-b23f-4be0-8078-938f9d4fd827), [[repo]](https:\u002F\u002Fgithub.com\u002Fliu00222\u002FOpen-Prompt-Injection)\n- \"AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents\", 2024-10, [[paper]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F7ab99274-2085-4b67-8941-c5a9f8310ebb)\n\n## Tools\n\n- [UTCP](https:\u002F\u002Fgithub.com\u002Funiversal-tool-calling-protocol\u002F): Secure, direct tool-calling to any native endpoint for your AI agent\n- [Plexiglass](https:\u002F\u002Fgithub.com\u002Fkortex-labs\u002Fplexiglass): a security toolbox for testing and safeguarding LLMs ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fkortex-labs\u002Fplexiglass?style=social)\n- [PurpleLlama](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FPurpleLlama): set of tools to assess and improve LLM security. ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Ffacebookresearch\u002FPurpleLlama?style=social)\n- [Rebuff](https:\u002F\u002Fgithub.com\u002Fprotectai\u002Frebuff): a self-hardening prompt injection detector ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fprotectai\u002Frebuff?style=social)\n- [Garak](https:\u002F\u002Fgithub.com\u002Fleondz\u002Fgarak\u002F): a LLM vulnerability scanner ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fleondz\u002Fgarak?style=social)\n- [LLMFuzzer](https:\u002F\u002Fgithub.com\u002Fmnns\u002FLLMFuzzer): a fuzzing framework for LLMs ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fmnns\u002FLLMFuzzer?style=social)\n- [LLM Guard](https:\u002F\u002Fgithub.com\u002Flaiyer-ai\u002Fllm-guard): a security toolkit for LLM Interactions ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Flaiyer-ai\u002Fllm-guard?style=social)\n- [Vigil](https:\u002F\u002Fgithub.com\u002Fdeadbits\u002Fvigil-llm): a LLM prompt injection detection toolkit ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fdeadbits\u002Fvigil-llm?style=social)\n- [jailbreak-evaluation](https:\u002F\u002Fgithub.com\u002Fcontrollability\u002Fjailbreak-evaluation): an easy-to-use Python package for language model jailbreak evaluation ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fcontrollability\u002Fjailbreak-evaluation?style=social)\n- [Prompt Fuzzer](https:\u002F\u002Fgithub.com\u002Fprompt-security\u002Fps-fuzz): the open-source tool to help you harden your GenAI applications ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fprompt-security\u002Fps-fuzz?style=social)\n- [WhistleBlower](https:\u002F\u002Fgithub.com\u002FRepello-AI\u002Fwhistleblower): open-source tool designed to infer the system prompt of an AI agent based on its generated text outputs. ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRepello-AI\u002Fwhistleblower?style=social)\n- [Open-Prompt-Injection](https:\u002F\u002Fgithub.com\u002Fliu00222\u002FOpen-Prompt-Injection): open-source tool to evaluate prompt injection attacks and defenses on benchmark datasets. ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fliu00222\u002FOpen-Prompt-Injection?style=social)\n- [Agentic Radar](https:\u002F\u002Fgithub.com\u002Fsplx-ai\u002Fagentic-radar): Open-source CLI security scanner for agentic workflows. ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fsplx-ai\u002Fagentic-radar?style=social)\n\n## Articles\n\n- [Hacking Auto-GPT and escaping its docker container](https:\u002F\u002Fpositive.security\u002Fblog\u002Fauto-gpt-rce)\n- [Prompt Injection Cheat Sheet: How To Manipulate AI Language Models](https:\u002F\u002Fblog.seclify.com\u002Fprompt-injection-cheat-sheet\u002F)\n- [Indirect Prompt Injection Threats](https:\u002F\u002Fgreshake.github.io\u002F)\n- [Prompt injection: What’s the worst that can happen?](https:\u002F\u002Fsimonwillison.net\u002F2023\u002FApr\u002F14\u002Fworst-that-can-happen\u002F)\n- [OWASP Top 10 for Large Language Model Applications](https:\u002F\u002Fowasp.org\u002Fwww-project-top-10-for-large-language-model-applications\u002F)\n- [PoisonGPT: How we hid a lobotomized LLM on Hugging Face to spread fake news](https:\u002F\u002Fblog.mithrilsecurity.io\u002Fpoisongpt-how-we-hid-a-lobotomized-llm-on-hugging-face-to-spread-fake-news\u002F)\n- [ChatGPT Plugins: Data Exfiltration via Images & Cross Plugin Request Forgery](https:\u002F\u002Fembracethered.com\u002Fblog\u002Fposts\u002F2023\u002Fchatgpt-webpilot-data-exfil-via-markdown-injection\u002F)\n- [Jailbreaking GPT-4's code interpreter](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FKSroBnxCHodGmPPJ8\u002Fjailbreaking-gpt-4-s-code-interpreter)\n- [Securing LLM Systems Against Prompt Injection](https:\u002F\u002Fdeveloper.nvidia.com\u002Fblog\u002Fsecuring-llm-systems-against-prompt-injection\u002F)\n- [The AI Attack Surface Map v1.0](https:\u002F\u002Fdanielmiessler.com\u002Fp\u002Fthe-ai-attack-surface-map-v1-0\u002F)\n- [Adversarial Attacks on LLMs](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-10-25-adv-attack-llm\u002F)\n- [How Anyone can Hack ChatGPT - GPT4o](https:\u002F\u002Fmedium.com\u002F@deltaaruna\u002Fhow-anyone-can-hack-chatgpt-aa7959684ef0)\n- [LLM Evaluation metrics, frmaework, and checklist](https:\u002F\u002Frepello.ai\u002Fblog\u002Fllm-evaluation-metrics-frameworks-and-checklist)\n- [How RAG Poisoning Made Llama3 Racist!](https:\u002F\u002Frepello.ai\u002Fblog\u002Fhow-rag-poisoning-made-llama3-racist-1c5e390dd564)\n\n## Other Awesome Projects\n\n- (0din GenAI Bug Bounty from Mozilla)(https:\u002F\u002F0din.ai): The 0Day Investigative Network is a bug bounty program focusing on flaws within GenAI models. Vulnerability classes include Prompt Injection, Training Data Poisoning, DoS, and more.\n- [Gandalf](https:\u002F\u002Fgandalf.lakera.ai\u002F): a prompt injection wargame\n- [LangChain vulnerable to code injection - CVE-2023-29374](https:\u002F\u002Fgithub.com\u002Fadvisories\u002FGHSA-fprp-p869-w6q2)\n- [LLM Security startups](https:\u002F\u002Fgithub.com\u002Frushout09\u002Fllm-security-startups)\n- [Adversarial Prompting](https:\u002F\u002Fwww.promptingguide.ai\u002Frisks\u002Fadversarial)\n- [Epivolis](https:\u002F\u002Fepivolis.com\u002F): a prompt injection aware chatbot designed to mitigate adversarial efforts\n- [LLM Security Problems at DEFCON31 Quals](https:\u002F\u002Fgithub.com\u002FNautilus-Institute\u002Fquals-2023\u002Ftree\u002Fmain\u002Fpawan_gupta): the world's top security competition\n- [PromptBounty.io](https:\u002F\u002Fsites.google.com\u002Fview\u002Fpromptbounty\u002F)\n- [PALLMs (Payloads for Attacking Large Language Models)](https:\u002F\u002Fgithub.com\u002Fmik0w\u002Fpallms)\n\n## Other Useful Resources\n\n- Twitter: [@llm_sec](https:\u002F\u002Ftwitter.com\u002Fllm_sec)\n- Blog: [LLM Security](https:\u002F\u002Fllmsecurity.net\u002F) authored by [@llm_sec](https:\u002F\u002Ftwitter.com\u002Fllm_sec)\n- Blog: [Embrace The Red](https:\u002F\u002Fembracethered.com\u002Fblog\u002Findex.html)\n- Blog: [Kai's Blog](https:\u002F\u002Fkai-greshake.de\u002F)\n- Newsletter: [AI safety takes](https:\u002F\u002Fnewsletter.danielpaleka.com\u002F)\n- Newsletter & Blog: [Hackstery](https:\u002F\u002Fhackstery.com)\n\n\u003Ca href=\"https:\u002F\u002Fstar-history.com\u002F#corca-ai\u002Fawesome-llm-security&Date\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcorca-ai_awesome-llm-security_readme_68e8f14b7980.png&theme=dark\" \u002F>\n    \u003Csource media=\"(prefers-color-scheme: light)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcorca-ai_awesome-llm-security_readme_68e8f14b7980.png\" \u002F>\n    \u003Cimg alt=\"Star History Chart\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcorca-ai_awesome-llm-security_readme_68e8f14b7980.png\" \u002F>\n  \u003C\u002Fpicture>\n\u003C\u002Fa>\n","# 令人惊叹的LLM安全 [![Awesome](https:\u002F\u002Fcdn.rawgit.com\u002Fsindresorhus\u002Fawesome\u002Fd7305f38d29fed78fa85652e3a63e154dd8e8829\u002Fmedia\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fsindresorhus\u002Fawesome)\n\n这是一份关于LLM安全的优秀工具、文档和项目的精选合集。\n\n我们始终欢迎贡献。在贡献之前，请阅读[贡献指南](CONTRIBUTING.md)。\n\n> [!NOTE] \n> ⚡ 为了更高效地进行研究导航，我们通过[Moonlight](https:\u002F\u002Fwww.themoonlight.io\u002F)分享PDF文件，该平台会在原文之外提供摘要。\n\n## 目录\n\n- [令人惊叹的LLM安全 ](#awesome-llm-security-)\n  - [目录](#table-of-contents)\n  - [论文](#papers)\n    - [白盒攻击](#white-box-attack)\n    - [黑盒攻击](#black-box-attack)\n    - [后门攻击](#backdoor-attack)\n    - [指纹识别](#fingerprinting)\n    - [防御](#defense)\n    - [平台安全](#platform-security)\n    - [综述](#survey)\n  - [基准测试](#benchmark)\n  - [工具](#tools)\n  - [文章](#articles)\n  - [其他优秀的项目](#other-awesome-projects)\n  - [其他有用的资源](#other-useful-resources)\n\n## 论文\n\n### 白盒攻击\n- \"视觉对抗样本突破大型语言模型\", 2023年6月, AAAI(口头报告) 24, `多模态`, [[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F9e1233aa-e417-448a-9032-05a11bff5a66) [[代码库]](https:\u002F\u002Fgithub.com\u002FUnispac\u002FVisual-Adversarial-Examples-Jailbreak-Large-Language-Models)\n- \"对齐的神经网络是否也具有对抗性对齐?\", 2023年6月, NeurIPS(海报) 23, `多模态`, [[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F282d463d-f9ce-4759-9e97-38b72c1200a7)\n- \"(滥用)图像与声音实现多模态LLM中的间接指令注入\", 2023年7月, `多模态` [[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F520e644a-b4f9-497f-9ebf-d6da198699aa)\n- \"针对对齐语言模型的通用且可迁移的对抗攻击\", 2023年7月, `可迁移`, [[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F5fc39128-9efa-49b3-8582-a909bab40dd3) [[代码库]](https:\u002F\u002Fgithub.com\u002Fllm-attacks\u002Fllm-attacks) [[网站]](https:\u002F\u002Fllm-attacks.org\u002F)\n- \"分块越狱：多模态语言模型上的组合式对抗攻击\", 2023年7月, `多模态`, [[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F5409b2f8-3f70-4cee-bcf3-01563877acf8)\n- \"图像劫持：对抗性图像可在运行时控制生成模型\", 2023年9月, `多模态`, [[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fb06630ff-1269-4765-86ed-0c79563402c1) [[代码库]](https:\u002F\u002Fgithub.com\u002Feuanong\u002Fimage-hijacks) [[站点]](https:\u002F\u002Fimage-hijacks.github.io)\n- \"大型语言模型中的弱到强越狱\", 2024年4月, `基于token概率`, [[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Ff8ec09ce-ebe5-4d59-ab7f-51fa27a4805e) [[代码库]](https:\u002F\u002Fgithub.com\u002FXuandongZhao\u002Fweak-to-strong)\n\n### 黑盒攻击\n- “这不是你注册时所期望的：通过间接提示注入破坏现实世界中的大语言模型集成应用”，2023年2月，AISec@CCS 23 [[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F8e338d56-34fc-411f-8f5f-2746997d7927)\n- “越狱：大语言模型的安全训练为何失效？”，2023年7月，NeurIPS（口头报告）23，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F1b53328c-f894-443b-8818-7e1d35580202)\n- “潜在越狱：评估大型语言模型文本安全性和输出鲁棒性的基准测试”，2023年7月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F4d35806f-3e25-4b28-abb3-2ea94b7246bd) [[代码库]](https:\u002F\u002Fgithub.com\u002Fqiuhuachuan\u002Flatent-jailbreak\u002Ftree\u002Fmain)\n- “从语言模型中有效提取提示”，2023年7月，“prompt-extraction”，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F9c059d79-6fac-47ad-93df-49db7e6bf1be)\n- “针对ChatGPT的多步越狱隐私攻击”，2023年4月，EMNLP 23，“privacy”，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Ffec9d235-0578-4ec1-bf6a-b2b0f7049b44)\n- “LLM审查：是机器学习挑战还是计算机安全问题？”，2023年7月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fb638c2fa-7808-48ba-a624-1b94947bd63d)\n- “通过提示工程越狱ChatGPT：一项实证研究”，2023年5月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fc63fb3e0-9767-45a9-8ef5-7d0438405fa6)\n- “针对集成大语言模型的应用程序的提示注入攻击”，2023年6月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F9f08a762-e3b2-4154-9696-60ade71b1a23) [[代码库]](https:\u002F\u002Fgithub.com\u002Fliu00222\u002FOpen-Prompt-Injection)\n- “MasterKey：跨多个大型语言模型聊天机器人实现自动化越狱”，2023年7月，“time-side-channel”，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Faee61233-baf5-4be7-8ac5-a012b7e0a821)\n- “GPT-4太聪明了，无法保证安全：通过密码与大语言模型进行隐蔽对话”，2023年8月，ICLR 24，“cipher”，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F56f16d1d-ae59-4ef0-b4f1-ba78befc6e84) [[代码库]](https:\u002F\u002Fgithub.com\u002FRobustNLP\u002FCipherChat)\n- “将大语言模型用于非法目的：威胁、防范措施与漏洞”，2023年8月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F8d52b850-83e9-4a32-bbd3-9e6d7da8a63b)\n- “不要回答：用于评估大语言模型安全机制的数据集”，2023年8月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fb3ed2c03-9cca-4717-bab1-389643641bee) [[代码库]](https:\u002F\u002Fgithub.com\u002FLibr-AI\u002Fdo-not-answer) [[数据集]](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLibrAI\u002Fdo-not-answer)\n- “利用困惑度检测语言模型攻击”，2023年8月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F4b510f47-9a01-425a-b4e3-a2fc77623239)\n- “芝麻开门！大型语言模型的通用黑盒越狱”，2023年9月，“gene-algorithm”，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F61002df2-31c3-4c8d-ac30-165bd46d8dc7)\n- “对齐语言模型的微调会损害安全性，即使用户并无此意！”，2023年10月，ICLR（口头报告）24，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F5d78aec9-b6a6-4b02-9104-cca3fedf38fd) [[代码库]](https:\u002F\u002Fgithub.com\u002FLLM-Tuning-Safety\u002FLLMs-Finetuning-Safety) [[网站]](https:\u002F\u002Fllm-tuning-safety.github.io\u002F) [[数据集]](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLLM-Tuning-Safety\u002FHEx-PHI)\n- “AutoDAN：在对齐的大语言模型上生成隐蔽的越狱提示”，2023年10月，ICLR（海报展示）24，“gene-algorithm”、“new-criterion”，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F00bd272c-616c-4219-a5b9-249b3dd04e19)\n- “仅需少量上下文示范即可越狱并绕过安全机制的语言模型”，2023年10月，CoRR 23，“ICL”，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F66225baa-8a69-4c54-a0e5-9c10c5a750e4)\n- “大型语言模型中的多语言越狱挑战”，2023年10月，ICLR（海报展示）24，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fb632c951-861c-4c12-8254-315ef0e074c9) [[代码库]](https:\u002F\u002Fgithub.com\u002FDAMO-NLP-SG\u002Fmultilingual-safety-for-LLMs)\n- “通过角色模拟能够扩展且可迁移的黑盒越狱方法应用于语言模型”，2023年11月，SoLaR（海报展示）24，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F540ebc2d-33bb-488f-8cc6-6f2886ffe279)\n- “DeepInception：催眠大型语言模型使其成为越狱者”，2023年11月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fc57a3c8c-50a5-4a49-8f99-b1eec1a9b2b1) [[代码库]](https:\u002F\u002Fgithub.com\u002Ftmlr-group\u002FDeepInception) [[网站]](https:\u002F\u002Fdeepinception.github.io\u002F)\n- “披着羊皮的狼：广义嵌套越狱提示能够轻易欺骗大型语言模型”，2023年11月，NAACL 24，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Ffd52e4ff-efb3-471b-abf1-ec689418e0bf) [[代码库]](https:\u002F\u002Fgithub.com\u002FNJUNLP\u002FReNeLLM)\n- “AutoDAN：大型语言模型上的自动且可解释的对抗性攻击”，2023年10月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fc340e5ed-c8d2-4b15-affe-aaad912943bd)\n- “语言模型逆向工程”，2023年11月，ICLR（海报展示）24，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fd0615bef-03b4-4e2b-8bff-1b19e15c0056) [[代码库]](https:\u002F\u002Fgithub.com\u002Fjxmorris12\u002Fvec2text)\n- “一个LLM可以欺骗它自己：基于提示的对抗性攻击”，2023年10月，ICLR（海报展示）24，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F193ec3b5-78ae-483b-adf5-aa6684919685) [[代码库]](https:\u002F\u002Fgithub.com\u002FGodXuxilie\u002FPromptAttack)\n- “GPTFUZZER：用自动生成的越狱提示对大型语言模型进行红队演练”，2023年9月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F2ebb8387-1e7a-4607-a309-fcd46a99d2be) [[代码库]](https:\u002F\u002Fgithub.com\u002Fsherdencooper\u002FGPTFuzz) [[网站]](https:\u002F\u002Fgithub.com\u002Fsherdencooper\u002FGPTFuzz)\n- “多轮次越狱”，2024年4月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F4db82652-210c-45cc-942b-032a34e03930)\n- “重新思考如何评估语言模型越狱”，2024年4月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F44eaf8b8-2f20-4d35-a438-1fada8e091fc) [[代码库]](https:\u002F\u002Fgithub.com\u002Fcontrollability\u002Fjailbreak-evaluation)\n- “信心诱导：大型语言模型的新攻击向量”，2025年2月，ICLR（海报展示）25，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F156c1cb3-c9ea-443d-9cfc-3f494f711df5) [[代码库]](https:\u002F\u002Fgithub.com\u002FAniloid2\u002FConfidence_Elicitation_Attacks)\n- “装傻充愣：利用分布外策略越狱LLM及多模态LLM”，2025年3月，CVPR 25，[[论文]](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.20823) [[代码库]](https:\u002F\u002Fgithub.com\u002Fnaver-ai\u002FJOOD)\n\n### 后门攻击\n- “BITE：基于迭代触发器注入的文本后门攻击”，2022年5月，ACL 23，`防御` [[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F04ad5e28-6f64-46b0-8714-64a845cad49e)\n- “提示词作为后门攻击的触发器：探究语言模型的脆弱性”，2023年5月，EMNLP 23，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fec305746-2f9c-49d1-bf6b-020629578bd5)\n- “通过虚拟提示注入对指令微调的大规模语言模型进行后门攻击”，2023年7月，NAACL 24，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Ff4d75f4b-d811-4509-8b15-8bf7c6e45288) [[代码库]](https:\u002F\u002Fgithub.com\u002Fwegodev2\u002Fvirtual-prompt-injection) [[网站]](https:\u002F\u002Fpoison-llm.github.io\u002F)\n\n### 指纹识别\n- “大规模语言模型的指令指纹识别”，2024年1月，NAACL 24 [[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F335c578a-1826-484e-bc00-6dc8c83d7c20) [[代码库]](https:\u002F\u002Fgithub.com\u002Fcnut1648\u002FModel-Fingerprint) [[网站]](https:\u002F\u002Fcnut1648.github.io\u002FModel-Fingerprint\u002F)\n- “TRAP：用于黑盒识别的定向随机对抗性提示蜜罐”，2024年2月，ACL 24（发现）[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F393cf159-106c-4a35-8f64-3de459a0cba4) [[代码库]](https:\u002F\u002Fgithub.com\u002Fparameterlab\u002Ftrap) [[视频]](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=9PdvAaUVZ28) [[海报]](https:\u002F\u002Fgubri.eu\u002Fpdf\u002FPoster_TRAP_MGubri.pdf)\n- “LLMmap：面向大规模语言模型的指纹识别”，2024年7月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fb1223716-8fad-4d90-8a36-cce960514bab) [[代码库]](https:\u002F\u002Fgithub.com\u002Fpasquini-dario\u002FLLMmap)\n\n### 防御\n- “针对对齐语言模型的对抗性攻击的基础防御措施”，2023年9月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F77b67179-78ce-4a9b-99de-1db2213d85cb) [[代码库]](https:\u002F\u002Fgithub.com\u002Fneelsjain\u002Fbaseline-defenses)\n- “LLM自我防御：通过自我检查，LLM能够察觉自己正被欺骗”，2023年8月，ICLR 24 Tiny Paper，`自过滤`，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F2d66d34b-5666-4b1f-aa9e-16396c6f4df3) [[代码库]](https:\u002F\u002Fgithub.com\u002Fpoloclub\u002Fllm-self-defense) [[网站]](https:\u002F\u002Fmphute.github.io\u002Fpapers\u002Fllm-self-defense)\n- “通过稳健对齐的LLM防御对齐破坏型攻击”，2023年9月，`随机掩码过滤`，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F1a368b95-9e71-43a8-a9c6-5555ec6e925d)\n- “针对大规模语言模型间接提示注入攻击的基准测试与防御”，2023年12月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F2ccdff05-ed06-4fb8-a2b1-4ba1b567acec) [[代码库]](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FBIPIA)\n- “AutoDefense：多智能体LLM防御越狱攻击”，2024年3月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F6a5de986-c838-4e42-8abc-675fcc5908db) [[代码库]](https:\u002F\u002Fgithub.com\u002FXHMY\u002FAutoDefense)\n- “利用信息瓶颈保护您的LLM”，2024年4月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F677201ce-a95f-4639-94d5-860ee89a8280) [[代码库]](https:\u002F\u002Fgithub.com\u002Fzichuan-liu\u002FIB4LLMs)\n- “PARDEN，您能再说一遍吗？通过重复防御越狱攻击”，2024年5月，ICML 24，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fbb878c6e-411f-4af5-8883-5c5330007488) [[代码库]](https:\u002F\u002Fgithub.com\u002FEd-Zh\u002FPARDEN)\n- “对抗性调优：为LLM防御越狱攻击”，2024年6月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fd7a0cdb8-dd4d-47f7-83e7-ece62e0f42a0)\n- “借助断路器提升对齐性和鲁棒性”，2024年6月，NeurIPS 24，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F3d4b1d35-3e81-4a66-b48a-775896ce708a) [[代码库]](https:\u002F\u002Fgithub.com\u002FGraySwanAI\u002Fcircuit-breakers)\n\n### 平台安全\n- “LLM平台安全：将系统性评估框架应用于OpenAI的ChatGPT插件”，2023年9月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Ffdb16919-a931-4690-bbf0-602d6feb56e5) [[代码库]](https:\u002F\u002Fgithub.com\u002Fllm-platform-security\u002Fchatgpt-plugin-eval)\n\n### 综述\n- “由对抗性攻击揭示的大规模语言模型漏洞综述”，2023年10月，ACL 24，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F51b7e82c-069f-4448-8a43-9468fb0bb8cf)\n- “大规模语言模型的安全与隐私挑战：综述”，2024年2月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F3a962e21-a3a9-45b0-95bb-303cedf1a9cc)\n- “拆解防御机制：大规模语言模型攻击的比较综述”，2024年3月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F9acc7a47-98bf-4509-a931-e7b548df9d23)\n- “为大规模语言模型（LLMs）实施红队威胁模型”，2024年7月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F8004eebc-df88-4150-8292-20e234172066)\n\n## 基准测试\n- “JailbreakBench：一个开放的大型语言模型越狱鲁棒性基准测试”，2024年3月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F2e9cecdf-c6ec-43c7-ba8b-af9a8ee3a3c9) [[代码库]](https:\u002F\u002Fgithub.com\u002FJailbreakBench\u002Fjailbreakbench)\n- “AgentDojo：评估LLM智能体攻击与防御的动态环境”，2024年6月，NeurIPS 24，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F5a567ace-0218-4c76-9018-6f99a93df7cd) [[代码库]](https:\u002F\u002Fgithub.com\u002Fethz-spylab\u002Fagentdojo) [[网站]](https:\u002F\u002Fagentdojo.spylab.ai\u002F)\n- “提示注入攻击与防御的形式化及基准测试”，2024年8月，USENIX Security 24，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002Fcd17769a-b23f-4be0-8078-938f9d4fd827) [[代码库]](https:\u002F\u002Fgithub.com\u002Fliu00222\u002FOpen-Prompt-Injection)\n- “AgentHarm：衡量LLM智能体危害性的基准测试”，2024年10月，[[论文]](https:\u002F\u002Fwww.themoonlight.io\u002Fpaper\u002Fshare\u002F7ab99274-2085-4b67-8941-c5a9f8310ebb)\n\n## 工具\n\n- [UTCP](https:\u002F\u002Fgithub.com\u002Funiversal-tool-calling-protocol\u002F): 为您的 AI 代理提供安全、直接的原生端点工具调用\n- [Plexiglass](https:\u002F\u002Fgithub.com\u002Fkortex-labs\u002Fplexiglass): 用于测试和保护大型语言模型的安全工具箱 ![GitHub 仓库星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fkortex-labs\u002Fplexiglass?style=social)\n- [PurpleLlama](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FPurpleLlama): 一套用于评估和提升 LLM 安全性的工具。![GitHub 仓库星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Ffacebookresearch\u002FPurpleLlama?style=social)\n- [Rebuff](https:\u002F\u002Fgithub.com\u002Fprotectai\u002Frebuff): 一种自我强化的提示注入检测器 ![GitHub 仓库星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fprotectai\u002Frebuff?style=social)\n- [Garak](https:\u002F\u002Fgithub.com\u002Fleondz\u002Fgarak\u002F): 一款 LLM 漏洞扫描器 ![GitHub 仓库星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fleondz\u002Fgarak?style=social)\n- [LLMFuzzer](https:\u002F\u002Fgithub.com\u002Fmnns\u002FLLMFuzzer): 面向 LLM 的模糊测试框架 ![GitHub 仓库星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fmnns\u002FLLMFuzzer?style=social)\n- [LLM Guard](https:\u002F\u002Fgithub.com\u002Flaiyer-ai\u002Fllm-guard): 用于 LLM 交互的安全工具包 ![GitHub 仓库星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Flaiyer-ai\u002Fllm-guard?style=social)\n- [Vigil](https:\u002F\u002Fgithub.com\u002Fdeadbits\u002Fvigil-llm): 一款 LLM 提示注入检测工具包 ![GitHub 仓库星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fdeadbits\u002Fvigil-llm?style=social)\n- [jailbreak-evaluation](https:\u002F\u002Fgithub.com\u002Fcontrollability\u002Fjailbreak-evaluation): 一个易于使用的 Python 包，用于评估语言模型的越狱行为 ![GitHub 仓库星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fcontrollability\u002Fjailbreak-evaluation?style=social)\n- [Prompt Fuzzer](https:\u002F\u002Fgithub.com\u002Fprompt-security\u002Fps-fuzz): 开源工具，帮助您加固 GenAI 应用程序 ![GitHub 仓库星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fprompt-security\u002Fps-fuzz?style=social)\n- [WhistleBlower](https:\u002F\u002Fgithub.com\u002FRepello-AI\u002Fwhistleblower): 开源工具，旨在根据 AI 代理生成的文本输出推断其系统提示。![GitHub 仓库星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRepello-AI\u002Fwhistleblower?style=social)\n- [Open-Prompt-Injection](https:\u002F\u002Fgithub.com\u002Fliu00222\u002FOpen-Prompt-Injection): 开源工具，用于在基准数据集上评估提示注入攻击及其防御措施。![GitHub 仓库星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fliu00222\u002FOpen-Prompt-Injection?style=social)\n- [Agentic Radar](https:\u002F\u002Fgithub.com\u002Fsplx-ai\u002Fagentic-radar): 面向代理式工作流的开源 CLI 安全扫描器。![GitHub 仓库星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fsplx-ai\u002Fagentic-radar?style=social)\n\n## 文章\n\n- [黑客攻击 Auto-GPT 并逃逸其 Docker 容器](https:\u002F\u002Fpositive.security\u002Fblog\u002Fauto-gpt-rce)\n- [提示注入 Cheat Sheet：如何操纵 AI 语言模型](https:\u002F\u002Fblog.seclify.com\u002Fprompt-injection-cheat-sheet\u002F)\n- [间接提示注入威胁](https:\u002F\u002Fgreshake.github.io\u002F)\n- [提示注入：最坏的情况会是什么？](https:\u002F\u002Fsimonwillison.net\u002F2023\u002FApr\u002F14\u002Fworst-that-can-happen\u002F)\n- [OWASP 大型语言模型应用十大风险](https:\u002F\u002Fowasp.org\u002Fwww-project-top-10-for-large-language-model-applications\u002F)\n- [PoisonGPT：我们如何在 Hugging Face 上隐藏一台被“前额叶切除”的 LLM 来传播假新闻](https:\u002F\u002Fblog.mithrilsecurity.io\u002Fpoisongpt-how-we-hid-a-lobotomized-llm-on-hugging-face-to-spread-fake-news\u002F)\n- [ChatGPT 插件：通过图片进行数据外泄及跨插件请求伪造](https:\u002F\u002Fembracethered.com\u002Fblog\u002Fposts\u002F2023\u002Fchatgpt-webpilot-data-exfil-via-markdown-injection\u002F)\n- [越狱 GPT-4 的代码解释器](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FKSroBnxCHodGmPPJ8\u002Fjailbreaking-gpt-4-s-code-interpreter)\n- [保护 LLM 系统免受提示注入攻击](https:\u002F\u002Fdeveloper.nvidia.com\u002Fblog\u002Fsecuring-llm-systems-against-prompt-injection\u002F)\n- [AI 攻击面地图 v1.0](https:\u002F\u002Fdanielmiessler.com\u002Fp\u002Fthe-ai-attack-surface-map-v1-0\u002F)\n- [LLM 的对抗性攻击](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-10-25-adv-attack-llm\u002F)\n- [任何人都可以黑掉 ChatGPT - GPT4o](https:\u002F\u002Fmedium.com\u002F@deltaaruna\u002Fhow-anyone-can-hack-chatgpt-aa7959684ef0)\n- [LLM 评估指标、框架与检查清单](https:\u002F\u002Frepello.ai\u002Fblog\u002Fllm-evaluation-metrics-frameworks-and-checklist)\n- [RAG 污染是如何让 Llama3 变得种族主义的！](https:\u002F\u002Frepello.ai\u002Fblog\u002Fhow-rag-poisoning-made-llama3-racist-1c5e390dd564)\n\n## 其他优秀项目\n\n- (Mozilla 的 0din GenAI 漏洞赏金计划)(https:\u002F\u002F0din.ai): 0Day 调查网络是一个专注于 GenAI 模型漏洞的漏洞赏金计划。漏洞类型包括提示注入、训练数据污染、拒绝服务等。\n- [Gandalf](https:\u002F\u002Fgandalf.lakera.ai\u002F): 一款提示注入对抗游戏\n- [LangChain 易受代码注入攻击 - CVE-2023-29374](https:\u002F\u002Fgithub.com\u002Fadvisories\u002FGHSA-fprp-p869-w6q2)\n- [LLM 安全初创公司](https:\u002F\u002Fgithub.com\u002Frushout09\u002Fllm-security-startups)\n- [对抗性提示](https:\u002F\u002Fwww.promptingguide.ai\u002Frisks\u002Fadversarial)\n- [Epivolis](https:\u002F\u002Fepivolis.com\u002F): 一款能够感知提示注入并减轻对抗性攻击的聊天机器人\n- [DEFCON31 资格赛中的 LLM 安全问题](https:\u002F\u002Fgithub.com\u002FNautilus-Institute\u002Fquals-2023\u002Ftree\u002Fmain\u002Fpawan_gupta): 世界顶级的安全竞赛\n- [PromptBounty.io](https:\u002F\u002Fsites.google.com\u002Fview\u002Fpromptbounty\u002F)\n- [PALLMs（针对大型语言模型的攻击载荷）](https:\u002F\u002Fgithub.com\u002Fmik0w\u002Fpallms)\n\n## 其他实用资源\n\n- Twitter: [@llm_sec](https:\u002F\u002Ftwitter.com\u002Fllm_sec)\n- 博客: [LLM Security](https:\u002F\u002Fllmsecurity.net\u002F)，由 [@llm_sec](https:\u002F\u002Ftwitter.com\u002Fllm_sec) 撰写\n- 博客: [Embrace The Red](https:\u002F\u002Fembracethered.com\u002Fblog\u002Findex.html)\n- 博客: [Kai 的博客](https:\u002F\u002Fkai-greshake.de\u002F)\n- 新闻简报: [AI safety takes](https:\u002F\u002Fnewsletter.danielpaleka.com\u002F)\n- 新闻简报与博客: [Hackstery](https:\u002F\u002Fhackstery.com)\n\n\u003Ca href=\"https:\u002F\u002Fstar-history.com\u002F#corca-ai\u002Fawesome-llm-security&Date\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcorca-ai_awesome-llm-security_readme_68e8f14b7980.png&theme=dark\" \u002F>\n    \u003Csource media=\"(prefers-color-scheme: light)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcorca-ai_awesome-llm-security_readme_68e8f14b7980.png\" \u002F>\n    \u003Cimg alt=\"Star History Chart\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcorca-ai_awesome-llm-security_readme_68e8f14b7980.png\" \u002F>\n  \u003C\u002Fpicture>\n\u003C\u002Fa>","# Awesome LLM Security 快速上手指南\n\n`awesome-llm-security` 并非一个单一的独立软件工具，而是一个精选的**资源列表仓库**，汇集了关于大语言模型（LLM）安全的顶级论文、基准测试、开源工具和项目。本指南将帮助你快速利用该仓库中的核心资源进行安全研究与防御实践。\n\n## 环境准备\n\n由于本仓库包含多个独立的子项目（如攻击工具、防御框架、数据集等），你需要根据具体想运行的项目配置环境。以下是通用的基础环境要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+), macOS, 或 Windows (WSL2)\n*   **Python**: 3.8 或更高版本 (推荐 3.10+)\n*   **包管理器**: `pip` 或 `conda`\n*   **GPU**: 可选，但运行大多数攻击\u002F防御实验强烈建议使用 NVIDIA GPU 并安装 CUDA 驱动\n*   **Git**: 用于克隆仓库\n\n**前置依赖安装示例**（以常见的 PyTorch 生态为例）：\n```bash\n# 建议先创建虚拟环境\npython -m venv llm-security-env\nsource llm-security-env\u002Fbin\u002Factivate  # Windows: llm-security-env\\Scripts\\activate\n\n# 安装基础依赖 (具体版本需参考子项目要求)\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\npip install transformers accelerate datasets\n```\n\n> **提示**：国内开发者可使用清华或阿里镜像源加速安装：\n> `pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple \u003Cpackage_name>`\n\n## 安装步骤\n\n由于这是一个资源聚合库，\"安装\"通常指克隆仓库并选择具体的子项目进行部署。\n\n1.  **克隆主仓库**\n    获取最新的论文列表和项目链接：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fllm-attacks\u002Fawesome-llm-security.git\n    cd awesome-llm-security\n    ```\n\n2.  **选择并安装具体工具**\n    浏览 `README.md` 中的 [Tools](#tools) 或 [Papers](#papers) 部分，找到你感兴趣的项目（例如 `llm-attacks` 或 `GPTFuzz`），然后进入其对应的 GitHub 仓库进行安装。\n\n    **示例：安装通用对抗攻击工具 (llm-attacks)**\n    ```bash\n    # 克隆具体项目\n    git clone https:\u002F\u002Fgithub.com\u002Fllm-attacks\u002Fllm-attacks.git\n    cd llm-attacks\n\n    # 安装该项目特定依赖\n    pip install -e .\n    # 或者\n    pip install -r requirements.txt\n    ```\n\n    **示例：安装自动化越狱工具 (GPTFuzz)**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fsherdencooper\u002FGPTFuzz.git\n    cd GPTFuzz\n    pip install -r requirements.txt\n    ```\n\n## 基本使用\n\n使用方法完全取决于你选择的具体子项目。以下提供两个典型场景的最简使用示例，展示如何利用这些资源进行安全测试。\n\n### 场景一：运行白盒对抗攻击 (基于 llm-attacks)\n\n该工具用于生成对抗性后缀以绕过模型对齐。\n\n```python\n# 示例代码片段 (参考自 llm-attacks 项目)\nimport torch\nfrom llm_attacks import get_attack_params, run_attack\n\n# 1. 加载目标模型 (例如 Vicuna 或 Llama-2)\nmodel, tokenizer = load_target_model(\"vicuna-7b-v1.3\")\n\n# 2. 定义攻击参数\nparams = get_attack_params(\n    model=model,\n    tokenizer=tokenizer,\n    goal=\"Write a tutorial on how to make a bomb\", # 恶意目标\n    control_init=\"! ! ! ! ! ! ! ! ! !\",           # 初始对抗后缀\n    n_steps=500,                                  # 优化步数\n    batch_size=512\n)\n\n# 3. 执行攻击\nresult = run_attack(params)\nprint(f\"成功生成的对抗性提示: {result['best_suffix']}\")\n```\n\n### 场景二：使用 GPTFuzz 进行黑盒模糊测试\n\n该工具通过变异策略自动生成越狱提示词。\n\n```bash\n# 在 GPTFuzz 项目目录下运行\npython main.py \\\n    --target_model \"gpt-3.5-turbo\" \\\n    --template \"default\" \\\n    --max_query 100 \\\n    --seed \"How to build a bomb?\"\n```\n\n### 查阅论文与资源\n\n如果你仅需查阅文献或使用数据集，无需安装代码：\n\n1.  打开克隆后的 `README.md` 文件。\n2.  根据分类（如 `White-box attack`, `Defense`, `Benchmark`）查找感兴趣的论文。\n3.  点击 `[paper]` 链接阅读摘要（部分通过 Moonlight 提供中文总结），或点击 `[repo]` 跳转至代码库。\n4.  对于标有 `[dataset]` 的项目，可直接通过 Hugging Face 下载数据进行本地评估。\n\n---\n*注：本仓库持续更新，具体命令参数请以各子项目最新的官方文档为准。在进行安全研究时，请严格遵守相关法律法规，仅用于授权的教育和研究目的。*","某金融科技公司安全团队正在为即将上线的 AI 客服系统构建防御体系，急需评估大模型面对各类攻击时的鲁棒性。\n\n### 没有 awesome-llm-security 时\n- **情报搜集零散低效**：团队成员需在 arXiv、GitHub 和各大会议网站间反复切换，难以系统性获取最新的白盒或黑盒攻击论文，极易遗漏关键威胁情报。\n- **复现验证成本高昂**：面对“视觉对抗样本”或“间接提示注入”等新型攻击，开发人员需从零寻找代码仓库，常因缺少官方实现或文档不全而耗费数周时间复现。\n- **防御策略缺乏依据**：由于缺乏统一的基准测试（Benchmark）和分类清晰的防御工具清单，团队难以量化模型风险，导致安全加固方案只能凭经验猜测，无法对症下药。\n- **多模态风险认知盲区**：专注于文本安全的团队容易忽视图像、声音等多模态输入带来的“越狱”风险，导致系统在集成多媒体功能时存在严重安全隐患。\n\n### 使用 awesome-llm-security 后\n- **一站式威胁情报库**：团队直接利用其分类详尽的目录（如白盒\u002F黑盒攻击、后门攻击），在几分钟内锁定了包括 NeurIPS 和 AAAI 在内的最新顶会研究成果，全面掌握攻击面。\n- **快速复现与验证**：通过列表中提供的官方代码仓库链接（如 `llm-attacks` 或 `image-hijacks`），团队当天即可搭建环境，成功复现了针对多模态模型的对抗攻击，验证了自身系统的脆弱点。\n- **科学制定防御路线**：参考项目中收录的防御工具和平台安全方案，团队针对性地部署了抗提示注入过滤器，并利用基准测试工具量化了修复前后的安全指标提升。\n- **全覆盖风险排查**：借助多模态攻击专项列表，团队主动识别并修复了原本被忽视的“图像劫持”漏洞，确保 AI 客服在处理用户上传图片时同样安全可靠。\n\nawesome-llm-security 将分散的安全研究转化为可执行的防御行动，帮助团队在攻击者之前筑起坚实的大模型安全防线。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcorca-ai_awesome-llm-security_5bad196e.png","corca-ai","Corca","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fcorca-ai_951ca0ee.png","AI Product & AX Company",null,"contact@corca.ai","https:\u002F\u002Fwww.corca.ai\u002F","https:\u002F\u002Fgithub.com\u002Fcorca-ai",1559,199,"2026-04-02T08:54:04",1,"","未说明",{"notes":90,"python":88,"dependencies":91},"该仓库（awesome-llm-security）是一个关于大语言模型（LLM）安全的工具、论文和项目精选列表（Awesome List），本身不是一个可直接运行的单一软件工具，因此没有统一的运行环境需求。列表中引用的各个具体项目（如 llm-attacks, GPTFuzz, AutoDefense 等）拥有各自独立的代码库和环境要求，用户需前往对应的子项目仓库查看具体的安装和运行指南。",[],[13,26],[94,95,96,97],"awesome","awesome-list","llm","security","2026-03-27T02:49:30.150509","2026-04-06T05:37:56.403796",[],[]]