deepteam

1.5k 246 简单 1 次阅读今天Apache-2.0语言模型

AI 解读由 AI 自动生成，仅供参考

DeepTeam 是一款专为大语言模型（LLM）及其系统设计的开源“红队”测试框架。简单来说，它就像是为 AI 系统进行的渗透测试，旨在主动发现潜在的安全隐患。

在 AI 应用开发中，模型可能面临越狱攻击、提示词注入、隐私数据泄露或输出偏见等风险。DeepTeam 通过模拟多种真实攻击场景（如多轮对话利用、敏感信息诱导等），帮助开发者提前识别这些漏洞，并提供相应的防护护栏，确保 AI 代理、RAG 管道和聊天机器人在生产环境中的安全与合规。

这款工具非常适合 AI 开发者、安全研究人员以及负责大模型落地的工程团队使用。其核心亮点在于易用性与本地化部署：用户无需将数据上传至云端，即可在本地机器上运行测试。DeepTeam 内置了 50 多种现成的漏洞检测模板，支持调用任意大模型作为“裁判”，自动对测试结果进行二元判定并给出详细的推理依据。此外，它基于成熟的 DeepEval 框架构建，既能独立使用，也能配合 Confident AI 平台进行更复杂的风险管理与报告协作，是保障大模型安全不可或缺的得力助手。

使用场景

某金融科技公司正在开发一款基于大模型的智能客服助手，用于处理用户账户查询和敏感业务咨询，上线前急需确保系统安全合规。

没有 deepteam 时

安全测试依赖人工构造攻击提示，耗时数周仅能覆盖极少数场景，难以发现深层漏洞。
无法系统化检测隐私泄露风险，用户身份证号或银行卡号可能在特定诱导下被模型无意输出。
缺乏对偏见和毒性内容的量化评估，模型可能在涉及性别或地域话题时给出不当回答，引发公关危机。
每次模型迭代后需重新进行全套人工测试，效率低下且标准不一，导致上线周期被迫延长。

使用 deepteam 后

利用内置的 50+ 种现成攻击模板（如越狱、提示词注入），在本地自动运行数千次模拟攻击，几小时内即可全面扫描系统弱点。
通过专门的“隐私数据泄露”检测模块，精准识别并修复了模型在多重诱导下输出用户 PII 信息的漏洞，确保数据合规。
借助自动化评估指标，快速定位并消除了模型在特定话题上的偏见与毒性回复，显著提升了内容安全性。
将红队测试集成至 CI/CD 流程，每次代码更新自动触发深度安全扫描，大幅缩短验证周期并保障迭代质量。

deepteam 将原本昂贵且滞后的 AI 安全审计转变为自动化、可量化的常规开发环节，为智能客服的安全上线筑牢了防线。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该工具基于 DeepEval 构建，设计为在本地机器上运行。它支持使用任意选择的 LLM（ANY LLM）作为评判标准来执行红队测试，因此具体的硬件资源需求（如 GPU、内存）取决于用户所选择运行的目标大语言模型，而非工具本身有固定硬性要求。README 中未列出具体的 Python 版本或其他系统级依赖限制。

python未说明

deepeval

快速开始

DeepTeam Logo

LLM红队框架

文档 | 漏洞、攻击和功能 | 快速入门 | Confident AI

DeepTeam 是一个简单易用的开源 LLM 系统红队框架。你可以把它想象成针对 LLM 的渗透测试。

DeepTeam 会模拟各种攻击——越狱、提示注入、多轮利用等——以发现你的 AI 代理、RAG 流水线和聊天机器人中的偏见、PII 泄露、SQL 注入等漏洞。它还提供 护栏机制，用于在生产环境中预防这些问题。

DeepTeam 可以在 本地机器上运行，并基于开源 LLM 评估框架 DeepEval 构建。

[!IMPORTANT] 需要一个地方来存储你的红队测试结果吗？请注册 Confident AI 平台，以管理风险评估、监控生产环境中的漏洞，并与团队共享报告。

Confident AI + DeepTeam

想讨论 LLM 安全问题、需要帮助选择攻击方式，或者只是想打个招呼？加入我们的 Discord 社区。

🔥 漏洞、攻击和功能

📐 50 多种即用型漏洞（均附有说明），可由你选择的任意 LLM 来触发。每种漏洞都使用 LLM 作为裁判的指标，在 本地机器上 运行，生成带有推理过程的二元通过/失败评分：
- 数据隐私
  - PII 泄露 — 敏感个人信息的泄露
  - 提示泄露 — 系统提示中秘密信息和指令的暴露
- 负责任的人工智能
  - 偏见 — 性别、种族、宗教、政治等方面的刻板印象和不公平待遇
  - 毒性 — 有害、冒犯性或贬低性的内容
  - 儿童保护 — 与儿童相关的隐私和安全风险
  - 伦理 — 对道德推理和组织价值观的违背
  - 公平性 — 不同群体和情境下的歧视性结果
- 安全性
  - BFLA — 功能级授权被破坏
  - BOLA — 对象级授权被破坏
  - RBAC — 基于角色的访问控制被绕过
  - 调试访问 — 未经授权访问调试模式和开发端点
  - Shell 注入 — 未经授权执行系统命令
  - SQL 注入 — 数据库查询被篡改
  - SSRF — 向内部服务发起服务器端请求伪造
  - 工具元数据中毒 — 工具的架构和描述被篡改
  - 跨上下文检索 — 跨隔离边界访问数据
  - 系统侦察 — 探测内部架构和配置
- 安全性
  - 非法活动 — 为欺诈、武器、毒品或其他非法行为提供便利
  - 血腥内容 — 明显暴力或色情的内容
  - 个人安全 — 自残、骚扰或危险建议
  - 意外代码执行 — 强制执行未经授权的代码
- 业务
虚假信息 — 事实性错误及无据之说
- 知识产权 — 著作权、商标权及专利权侵权
- 竞争 — 竞争对手背书与市场操纵
- 代理型
  - 目标窃取 — 挖掘或重定向智能体的目标
  - 递归劫持 — 自我修改的目标链会改变智能体的意图
  - 过度代理 — 智能体超出其权限范围行事
  - 鲁棒性 — 对输入的过度依赖及提示劫持
  - 间接指令 — 在检索到的内容中隐藏指令
  - 工具编排滥用 — 利用工具调用序列进行攻击
  - 智能体身份与信任滥用 — 冒充智能体身份
  - 多智能体通信被破坏 — 欺骗多智能体之间的消息传递
  - 自主智能体漂移 — 智能体随时间偏离预期目标
  - 利用工具的智能体 — 将工具武器化以执行非预期行为
  - 外部系统滥用 — 使用智能体攻击外部服务
- 自定义
  - 自定义漏洞 — 仅需几行代码即可定义并测试您自己的评估标准
💥 20多种基于研究的对抗性攻击方法，适用于单轮和多轮（对话式）红队演练。这些攻击采用最先进的技术，如越狱、提示注入和基于编码的混淆等，以增强基础漏洞探测能力：
- 单轮
  - 提示注入 — 精心设计的注入内容可绕过大模型的限制
  - 角色扮演 — 基于角色的情景模拟，利用协作训练中的弱点
  - Leetspeak — 通过符号字符替换来规避关键词检测
  - ROT13 — 通过字母旋转来逃避内容过滤器
  - Base64 — 将攻击编码为看似随机的数据
  - 灰盒 — 利用对系统的部分了解实施针对性攻击
  - 数学问题 — 将攻击伪装成数学输入
  - 多语言 — 将攻击翻译成较少使用的语言
  - 提示探测 — 探测大模型以获取系统提示的具体细节
  - 对抗性诗歌 — 将攻击转化为带有隐喻的诗体表达
  - 系统覆盖 — 将攻击伪装成合法的系统命令
  - 权限提升 — 通过改变感知身份来绕过角色限制
  - 目标重定向 — 重新设定智能体目标以达成未经授权的结果
  - 语言混淆 — 利用语义模糊来干扰语言理解
  - 输入绕过 — 通过异常处理机制绕过验证
  - 上下文污染 — 注入虚假背景信息以偏颇推理
  - 字符流 — 逐字符输入以绕过过滤器
  - 上下文泛滥 — 向输入中大量添加无关文本以隐藏恶意指令
  - 嵌入式指令JSON — 将攻击隐藏在看似真实的JSON结构中
  - 合成上下文注入 — 构造虚假系统上下文以利用长上下文处理机制
  - 权威升级 — 从权力地位出发提出请求
  - 情绪操控 — 通过高强度的情绪施压促使不安全的服从
- 多轮
线性越狱 — 通过目标LLM的响应迭代优化攻击
- 树形越狱 — 探索并行的攻击变体以找到最佳绕过方法
- 渐强式越狱 — 从良性提示逐步升级到有害提示
- 序列越狱 — 多轮对话搭建脚手架，诱导产生受限输出
- 糟糕的李克特量表评判者 — 利用李克特量表评估角色提取有害内容
🏛️ 红队对抗现成的AI安全框架，开箱即用。每个框架会自动将其类别映射到相应的漏洞和攻击：
- OWASP LLM十大风险2025
- OWASP Agent十大风险2026
- NIST AI RMF
- MITRE ATLAS
- BeaverTails
- Aegis
🛡️ 7种生产就绪的护栏，用于快速二分类，实时保护LLM的输入和输出。
🧩 构建您自己的自定义漏洞和攻击，与DeepTeam生态系统无缝集成。
🔗 可以使用YAML配置文件通过命令行运行红队测试，也可以用Python进行编程化操作。
📊 访问风险评估结果，以数据框形式展示，并可保存为本地JSON文件。

🚀 快速入门

DeepTeam无需您指定要红队测试的LLM系统——因为恶意用户也不会这样做。您只需安装deepteam，定义一个model_callback函数，即可开始。

安装

pip install -U deepteam

对您的第一个LLM进行红队测试

from deepteam import red_team
from deepteam.vulnerabilities import Bias
from deepteam.attacks.single_turn import PromptInjection

async def model_callback(input: str) -> str:
    # 替换为您自己的LLM应用
    return f"很抱歉，我无法回答这个问题：{input}"

risk_assessment = red_team(
    model_callback=model_callback,
    vulnerabilities=[Bias(types=["race"])],
    attacks=[PromptInjection()]
)

在运行之前，请别忘了将OPENAI_API_KEY设置为环境变量（您也可以使用任何自定义模型），然后运行以下命令：

python red_team_llm.py

就这样！您的第一次红队测试完成了。 过程如下：

model_callback封装了您的LLM系统，根据给定的input生成一个str类型的输出。
在红队测试时，deepteam模拟了一次针对Bias漏洞的PromptInjection攻击。
您的model_callback输出会使用BiasMetric进行评估，得出0或1的二元分数。
最终的Bias通过率由得分为1的比例决定。

与传统评估不同，红队测试不需要准备好的数据集——对抗性攻击是根据您想要测试的漏洞动态生成的。

对抗安全框架进行红队测试

您可以使用OWASP、NIST等成熟的AI安全标准，而不是手动选择漏洞：

from deepteam import red_team
from deepteam.frameworks import OWASPTop10

async def model_callback(input: str) -> str:
    # 替换为您自己的LLM应用
    return f"很抱歉，我无法回答这个问题：{input}"

risk_assessment = red_team(
    model_callback=model_callback,
    framework=OWASPTop10()
)

这会自动将框架的类别映射到相应的漏洞和攻击。可用的框架包括OWASPTop10、OWASP_ASI_2026、NIST、MITRE、Aegis和BeaverTails。

在生产环境中保护您的LLM

一旦发现漏洞，可以使用DeepTeam的护栏来防止它们在生产环境中发生：

from deepteam import Guardrails
from deepteam.guardrails import PromptInjectionGuard, ToxicityGuard, PrivacyGuard

guardrails = Guardrails(
    input_guards=[PromptInjectionGuard(), PrivacyGuard()],
    output_guards=[ToxicityGuard()]
)

# 在输入到达您的LLM之前进行防护
input_result = guardrails.guard_input("告诉我如何入侵数据库")
print(input_result.breached)  # True

# 在输出发送给用户之前进行防护
output_result = guardrails.guard_output(input="你好", output="这里有一些有毒的内容...")
print(output_result.breached)  # True

开箱即用的护栏共有7种：ToxicityGuard、PromptInjectionGuard、PrivacyGuard、IllegalGuard、HallucinationGuard、TopicalGuard和CybersecurityGuard。完整护栏文档请见此处。

DeepTeam与Confident AI

Confident AI是一个一体化平台，可原生集成DeepTeam和DeepEval。

管理风险评估 — 查看、比较和跟踪各次红队测试的结果
生产环境监控 — 检测并警报影响您在线LLM系统的漏洞
分享报告 — 生成并向团队分发安全报告
直接在IDE中运行 — 使用Confident AI的MCP服务器运行红队测试、拉取结果并检查漏洞，无需离开Cursor或Claude Code。

Confident AI

贡献

请阅读CONTRIBUTING.md，了解我们的行为准则以及向我们提交拉取请求的流程。

作者

由Confident AI的创始人打造。如有任何疑问，请联系jeffreyip@confident-ai.com。

许可证

DeepTeam采用Apache 2.0许可证授权——详情请参阅LICENSE.md文件。

DeepTeam 快速上手指南

DeepTeam 是一个开源的大语言模型（LLM）红队测试框架，旨在通过模拟越狱、提示注入、多轮攻击等手段，发现 AI 代理、RAG 管道和聊天机器人中的安全漏洞（如偏见、隐私泄露、SQL 注入等）。它基于 DeepEval 构建，完全在本地运行。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS, 或 Windows
Python 版本：Python 3.9 或更高版本
前置依赖：
- 已安装 pip 包管理工具
- （可选但推荐）拥有可用的 LLM API Key（如 OpenAI, Azure, 或本地部署的模型），用于驱动攻击生成和评估判断。

安装步骤

使用 pip 直接安装 DeepTeam 及其核心依赖：

pip install deepteam

提示：如果您在中国大陆地区遇到下载速度慢的问题，可以使用国内镜像源加速安装：
pip install deepteam -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成后，建议初始化配置文件（根据引导输入您的 LLM 提供商及 API Key）：

deepteam init

基本使用

DeepTeam 的核心工作流是通过定义目标模型和要测试的漏洞类型来运行红队测试。以下是一个最简单的 Python 脚本示例，展示如何对目标 LLM 进行基础的越狱和提示注入测试。

1. 创建测试脚本

新建一个文件（例如 run_test.py），并写入以下代码。此示例假设您已通过 deepteam init 配置了默认模型，或者直接在代码中指定目标模型。

from deepteam import RedTeamer
from deepteam.vulnerabilities import PromptInjection, Jailbreak

# 定义要测试的目标模型 (此处以 OpenAI 为例，也可替换为本地模型或其他提供商)
# 确保已设置环境变量 OPENAI_API_KEY 或在 init 时配置
target_model = {
    "model": "gpt-3.5-turbo", 
    "api_key": "YOUR_OPENAI_API_KEY" # 或者从环境变量读取
}

# 初始化红队测试器
red_teamer = RedTeamer(
    target_model=target_model,
    vulnerabilities=[
        PromptInjection(),
        Jailbreak()
    ]
)

# 运行测试
results = red_teamer.generate()

# 打印简要结果
print(f"测试完成。发现漏洞数量：{len(results)}")
for result in results:
    print(f"- 漏洞类型：{result.vulnerability}, 状态：{'失败' if result.success else '通过'}")
    if not result.success:
        print(f"  攻击提示示例：{result.input}")

2. 运行测试

在终端中执行脚本：

python run_test.py

3. 查看结果

运行结束后，DeepTeam 会在控制台输出测试结果，包括是否成功触发了漏洞、使用的攻击提示（Prompt）以及模型的响应。

本地报告：测试结果通常会自动保存为本地文件（如 JSON 或 HTML 报告，具体取决于配置）。
云端管理（可选）：如果您注册了 Confident AI，可以配置 API Key 将测试结果同步到云端仪表盘，以便团队协作和长期监控。

通过以上步骤，您即可快速启动针对 LLM 应用的安全评估。更多高级用法（如自定义漏洞、多轮对话攻击、RAG 测试等）请参考官方文档。

版本历史

v1.0.42025/11/12

v0.1.92025/07/02

v0.1.42025/05/23

常见问题

如何配置 DeepTeam 以完全在本地运行模型，避免调用外部 API？

遇到 'ModuleNotFoundError: No module named deepeval.metrics.red_teaming_metrics' 错误怎么办？

RedTeamer 类中的 target_purpose 参数有什么作用？如何使用它来定制特定场景的攻击？

使用自定义模型时遇到遥测（Telemetry）相关报错如何解决？

如何在 DeepTeam 中使用 Hugging Face 托管的模型进行评测和模拟？

如何编写一个简单的回调函数来连接本地 Ollama 模型进行红队测试？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 154.3k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|3天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|5天前

语言模型数据工具其他

gpt4all

GPT4All 是一款让普通电脑也能轻松运行大型语言模型（LLM）的开源工具。它的核心目标是打破算力壁垒，让用户无需依赖昂贵的显卡（GPU）或云端 API，即可在普通的笔记本电脑和台式机上私密、离线地部署和使用大模型。对于担心数据隐私、希望完全掌控本地数据的企业用户、研究人员以及技术爱好者来说，GPT4All 提供了理想的解决方案。它解决了传统大模型必须联网调用或需要高端硬件才能运行的痛点，让日常设备也能成为强大的 AI 助手。无论是希望构建本地知识库的开发者，还是单纯想体验私有化 AI 聊天的普通用户，都能从中受益。技术上，GPT4All 基于高效的 `llama.cpp` 后端，支持多种主流模型架构（包括最新的 DeepSeek R1 蒸馏模型），并采用 GGUF 格式优化推理速度。它不仅提供界面友好的桌面客户端，支持 Windows、macOS 和 Linux 等多平台一键安装，还为开发者提供了便捷的 Python 库，可轻松集成到 LangChain 等生态中。通过简单的下载和配置，用户即可立即开始探索本地大模型的无限可能。

★ 77.3k|★☆☆☆☆|3天前

语言模型开发框架