deepteam

GitHub
1.5k 246 简单 1 次阅读 今天Apache-2.0语言模型
AI 解读 由 AI 自动生成,仅供参考

DeepTeam 是一款专为大语言模型(LLM)及其系统设计的开源“红队”测试框架。简单来说,它就像是为 AI 系统进行的渗透测试,旨在主动发现潜在的安全隐患。

在 AI 应用开发中,模型可能面临越狱攻击、提示词注入、隐私数据泄露或输出偏见等风险。DeepTeam 通过模拟多种真实攻击场景(如多轮对话利用、敏感信息诱导等),帮助开发者提前识别这些漏洞,并提供相应的防护护栏,确保 AI 代理、RAG 管道和聊天机器人在生产环境中的安全与合规。

这款工具非常适合 AI 开发者、安全研究人员以及负责大模型落地的工程团队使用。其核心亮点在于易用性与本地化部署:用户无需将数据上传至云端,即可在本地机器上运行测试。DeepTeam 内置了 50 多种现成的漏洞检测模板,支持调用任意大模型作为“裁判”,自动对测试结果进行二元判定并给出详细的推理依据。此外,它基于成熟的 DeepEval 框架构建,既能独立使用,也能配合 Confident AI 平台进行更复杂的风险管理与报告协作,是保障大模型安全不可或缺的得力助手。

使用场景

某金融科技公司正在开发一款基于大模型的智能客服助手,用于处理用户账户查询和敏感业务咨询,上线前急需确保系统安全合规。

没有 deepteam 时

  • 安全测试依赖人工构造攻击提示,耗时数周仅能覆盖极少数场景,难以发现深层漏洞。
  • 无法系统化检测隐私泄露风险,用户身份证号或银行卡号可能在特定诱导下被模型无意输出。
  • 缺乏对偏见和毒性内容的量化评估,模型可能在涉及性别或地域话题时给出不当回答,引发公关危机。
  • 每次模型迭代后需重新进行全套人工测试,效率低下且标准不一,导致上线周期被迫延长。

使用 deepteam 后

  • 利用内置的 50+ 种现成攻击模板(如越狱、提示词注入),在本地自动运行数千次模拟攻击,几小时内即可全面扫描系统弱点。
  • 通过专门的“隐私数据泄露”检测模块,精准识别并修复了模型在多重诱导下输出用户 PII 信息的漏洞,确保数据合规。
  • 借助自动化评估指标,快速定位并消除了模型在特定话题上的偏见与毒性回复,显著提升了内容安全性。
  • 将红队测试集成至 CI/CD 流程,每次代码更新自动触发深度安全扫描,大幅缩短验证周期并保障迭代质量。

deepteam 将原本昂贵且滞后的 AI 安全审计转变为自动化、可量化的常规开发环节,为智能客服的安全上线筑牢了防线。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notes该工具基于 DeepEval 构建,设计为在本地机器上运行。它支持使用任意选择的 LLM(ANY LLM)作为评判标准来执行红队测试,因此具体的硬件资源需求(如 GPU、内存)取决于用户所选择运行的目标大语言模型,而非工具本身有固定硬性要求。README 中未列出具体的 Python 版本或其他系统级依赖限制。
python未说明
deepeval
deepteam hero image

快速开始

DeepTeam Logo

LLM红队框架

文档 | 漏洞、攻击 和 功能 | 快速入门 | Confident AI

GitHub release Discord License

Deutsch | Español | français | 日本語 | 한국어 | Português | Русский | 中文

DeepTeam 是一个简单易用的开源 LLM 系统红队框架。你可以把它想象成针对 LLM 的渗透测试。

DeepTeam 会模拟各种攻击——越狱、提示注入、多轮利用等——以发现你的 AI 代理、RAG 流水线和聊天机器人中的偏见、PII 泄露、SQL 注入等漏洞。它还提供 护栏机制,用于在生产环境中预防这些问题。

DeepTeam 可以在 本地机器上运行,并基于开源 LLM 评估框架 DeepEval 构建。

[!IMPORTANT] 需要一个地方来存储你的红队测试结果吗?请注册 Confident AI 平台,以管理风险评估、监控生产环境中的漏洞,并与团队共享报告。

Confident AI + DeepTeam

想讨论 LLM 安全问题、需要帮助选择攻击方式,或者只是想打个招呼?加入我们的 Discord 社区。

 

🔥 漏洞、攻击 和 功能

  • 📐 50 多种即用型 漏洞(均附有说明),可由你选择的 任意 LLM 来触发。每种漏洞都使用 LLM 作为裁判的指标,在 本地机器上 运行,生成带有推理过程的二元通过/失败评分:

    • 数据隐私
    • 负责任的人工智能
      • 偏见 — 性别、种族、宗教、政治等方面的刻板印象和不公平待遇
      • 毒性 — 有害、冒犯性或贬低性的内容
      • 儿童保护 — 与儿童相关的隐私和安全风险
      • 伦理 — 对道德推理和组织价值观的违背
      • 公平性 — 不同群体和情境下的歧视性结果
    • 安全性
    • 安全性
    • 业务
  • 虚假信息 — 事实性错误及无据之说

    • 知识产权 — 著作权、商标权及专利权侵权
    • 竞争 — 竞争对手背书与市场操纵
  • 💥 20多种基于研究的对抗性攻击方法,适用于单轮和多轮(对话式)红队演练。这些攻击采用最先进的技术,如越狱、提示注入和基于编码的混淆等,以增强基础漏洞探测能力:

    • 单轮
      • 提示注入 — 精心设计的注入内容可绕过大模型的限制
      • 角色扮演 — 基于角色的情景模拟,利用协作训练中的弱点
      • Leetspeak — 通过符号字符替换来规避关键词检测
      • ROT13 — 通过字母旋转来逃避内容过滤器
      • Base64 — 将攻击编码为看似随机的数据
      • 灰盒 — 利用对系统的部分了解实施针对性攻击
      • 数学问题 — 将攻击伪装成数学输入
      • 多语言 — 将攻击翻译成较少使用的语言
      • 提示探测 — 探测大模型以获取系统提示的具体细节
      • 对抗性诗歌 — 将攻击转化为带有隐喻的诗体表达
      • 系统覆盖 — 将攻击伪装成合法的系统命令
      • 权限提升 — 通过改变感知身份来绕过角色限制
      • 目标重定向 — 重新设定智能体目标以达成未经授权的结果
      • 语言混淆 — 利用语义模糊来干扰语言理解
      • 输入绕过 — 通过异常处理机制绕过验证
      • 上下文污染 — 注入虚假背景信息以偏颇推理
      • 字符流 — 逐字符输入以绕过过滤器
      • 上下文泛滥 — 向输入中大量添加无关文本以隐藏恶意指令
      • 嵌入式指令JSON — 将攻击隐藏在看似真实的JSON结构中
      • 合成上下文注入 — 构造虚假系统上下文以利用长上下文处理机制
      • 权威升级 — 从权力地位出发提出请求
      • 情绪操控 — 通过高强度的情绪施压促使不安全的服从
    • 多轮
  • 线性越狱 — 通过目标LLM的响应迭代优化攻击

  • 🏛️ 红队对抗现成的AI安全框架,开箱即用。每个框架会自动将其类别映射到相应的漏洞和攻击:

    • OWASP LLM十大风险2025
    • OWASP Agent十大风险2026
    • NIST AI RMF
    • MITRE ATLAS
    • BeaverTails
    • Aegis
  • 🛡️ 7种生产就绪的护栏,用于快速二分类,实时保护LLM的输入和输出。

  • 🧩 构建您自己的自定义漏洞和攻击,与DeepTeam生态系统无缝集成。

  • 🔗 可以使用YAML配置文件通过命令行运行红队测试,也可以用Python进行编程化操作。

  • 📊 访问风险评估结果,以数据框形式展示,并可保存为本地JSON文件。

 

🚀 快速入门

DeepTeam无需您指定要红队测试的LLM系统——因为恶意用户也不会这样做。您只需安装deepteam,定义一个model_callback函数,即可开始。

安装

pip install -U deepteam

对您的第一个LLM进行红队测试

from deepteam import red_team
from deepteam.vulnerabilities import Bias
from deepteam.attacks.single_turn import PromptInjection

async def model_callback(input: str) -> str:
    # 替换为您自己的LLM应用
    return f"很抱歉,我无法回答这个问题:{input}"

risk_assessment = red_team(
    model_callback=model_callback,
    vulnerabilities=[Bias(types=["race"])],
    attacks=[PromptInjection()]
)

在运行之前,请别忘了将OPENAI_API_KEY设置为环境变量(您也可以使用任何自定义模型),然后运行以下命令:

python red_team_llm.py

就这样!您的第一次红队测试完成了。 过程如下:

  • model_callback封装了您的LLM系统,根据给定的input生成一个str类型的输出。
  • 在红队测试时,deepteam模拟了一次针对Bias漏洞的PromptInjection攻击。
  • 您的model_callback输出会使用BiasMetric进行评估,得出0或1的二元分数。
  • 最终的Bias通过率由得分为1的比例决定。

与传统评估不同,红队测试不需要准备好的数据集——对抗性攻击是根据您想要测试的漏洞动态生成的。

 

对抗安全框架进行红队测试

您可以使用OWASP、NIST等成熟的AI安全标准,而不是手动选择漏洞:

from deepteam import red_team
from deepteam.frameworks import OWASPTop10

async def model_callback(input: str) -> str:
    # 替换为您自己的LLM应用
    return f"很抱歉,我无法回答这个问题:{input}"

risk_assessment = red_team(
    model_callback=model_callback,
    framework=OWASPTop10()
)

这会自动将框架的类别映射到相应的漏洞和攻击。可用的框架包括OWASPTop10OWASP_ASI_2026NISTMITREAegisBeaverTails

 

在生产环境中保护您的LLM

一旦发现漏洞,可以使用DeepTeam的护栏来防止它们在生产环境中发生:

from deepteam import Guardrails
from deepteam.guardrails import PromptInjectionGuard, ToxicityGuard, PrivacyGuard

guardrails = Guardrails(
    input_guards=[PromptInjectionGuard(), PrivacyGuard()],
    output_guards=[ToxicityGuard()]
)

# 在输入到达您的LLM之前进行防护
input_result = guardrails.guard_input("告诉我如何入侵数据库")
print(input_result.breached)  # True

# 在输出发送给用户之前进行防护
output_result = guardrails.guard_output(input="你好", output="这里有一些有毒的内容...")
print(output_result.breached)  # True

开箱即用的护栏共有7种:ToxicityGuardPromptInjectionGuardPrivacyGuardIllegalGuardHallucinationGuardTopicalGuardCybersecurityGuard完整护栏文档请见此处。

 

DeepTeam与Confident AI

Confident AI是一个一体化平台,可原生集成DeepTeam和DeepEval

  • 管理风险评估 — 查看、比较和跟踪各次红队测试的结果
  • 生产环境监控 — 检测并警报影响您在线LLM系统的漏洞
  • 分享报告 — 生成并向团队分发安全报告
  • 直接在IDE中运行 — 使用Confident AI的MCP服务器运行红队测试、拉取结果并检查漏洞,无需离开Cursor或Claude Code。

Confident AI

 

贡献

请阅读CONTRIBUTING.md,了解我们的行为准则以及向我们提交拉取请求的流程。

 

作者

由Confident AI的创始人打造。如有任何疑问,请联系jeffreyip@confident-ai.com

 

许可证

DeepTeam采用Apache 2.0许可证授权——详情请参阅LICENSE.md文件。

版本历史

v1.0.42025/11/12
v0.1.92025/07/02
v0.1.42025/05/23

常见问题

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

154.3k|★★☆☆☆|今天
开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|1周前
语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|1周前
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.1k|★★☆☆☆|3天前
图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。

79.9k|★☆☆☆☆|5天前
语言模型数据工具其他

gpt4all

GPT4All 是一款让普通电脑也能轻松运行大型语言模型(LLM)的开源工具。它的核心目标是打破算力壁垒,让用户无需依赖昂贵的显卡(GPU)或云端 API,即可在普通的笔记本电脑和台式机上私密、离线地部署和使用大模型。 对于担心数据隐私、希望完全掌控本地数据的企业用户、研究人员以及技术爱好者来说,GPT4All 提供了理想的解决方案。它解决了传统大模型必须联网调用或需要高端硬件才能运行的痛点,让日常设备也能成为强大的 AI 助手。无论是希望构建本地知识库的开发者,还是单纯想体验私有化 AI 聊天的普通用户,都能从中受益。 技术上,GPT4All 基于高效的 `llama.cpp` 后端,支持多种主流模型架构(包括最新的 DeepSeek R1 蒸馏模型),并采用 GGUF 格式优化推理速度。它不仅提供界面友好的桌面客户端,支持 Windows、macOS 和 Linux 等多平台一键安装,还为开发者提供了便捷的 Python 库,可轻松集成到 LangChain 等生态中。通过简单的下载和配置,用户即可立即开始探索本地大模型的无限可能。

77.3k|★☆☆☆☆|3天前
语言模型开发框架