rogue
Rogue 是一款专为 AI 智能体(AI Agent)打造的安全评估与红队测试平台,旨在帮助开发者在黑客攻击之前,主动发现并修复智能体的潜在漏洞。它主要解决了 AI 应用在落地过程中面临的行为不可控、业务规则违背以及安全防御薄弱等核心痛点。
Rogue 提供两种核心能力:一是“自动评估”,通过定义具体场景和业务策略,验证智能体是否符合预期行为,适合回归测试;二是“红队演练”,模拟真实 adversarial 攻击(如提示词注入、社会工程学欺骗等),覆盖 75 种以上安全漏洞,并依据 CVSS 标准进行风险评分,同时支持 OWASP、GDPR 等主流合规框架审计。
这款工具特别适合 AI 应用开发者、安全工程师及企业技术团队使用。无论是需要确保客服机器人不违反公司政策,还是需要对金融类智能体进行严格的安全渗透测试,Rogue 都能提供详尽的通过/失败报告及推理依据。
技术上,Rogue 采用客户端 - 服务器架构,既提供现代化的终端交互界面(TUI)供人工调试,也支持命令行模式以便无缝集成到 CI/CD 流水线中。它兼容多种协议,包括 Google 的 A2A 协议、MCP 协议以及直接的 Python 函数调用,能够灵活适配各种开发环境,让智能体的压力测试变得简单高效。
使用场景
某电商团队正在开发一款基于大模型的“智能售后客服 Agent",旨在自动处理用户的退换货请求及投诉,但在上线前急需验证其面对恶意诱导或敏感话题时的安全性与合规性。
没有 rogue 时
- 人工测试覆盖率低:测试人员只能凭经验构造少量对话,难以模拟黑客常用的编码绕过、社会工程学等 20+ 种复杂攻击手法,大量隐蔽漏洞被遗漏。
- 合规风险不可控:缺乏系统化的评估标准,无法量化 Agent 是否违反 GDPR 或欧盟《人工智能法案》等 8 项关键合规框架,上线如同“盲人摸象”。
- 回归测试成本高:每次模型迭代或提示词调整后,需重新组织人力进行重复性对话测试,效率低下且容易因疲劳产生误判。
- 缺乏量化报告:发现问题后仅能口头描述,缺少基于 CVSS 的风险评分和详细的失败原因分析,开发团队难以优先修复高危问题。
使用 rogue 后
- 自动化红队演练:利用 rogue 内置的 75+ 种漏洞库和对抗性攻击技术,自动对 Agent 进行全方位压力测试,迅速暴露注入攻击和逻辑绕过等深层隐患。
- 合规性自动审计:rogue 直接对照 OWASP、NIST 等权威框架生成检测报告,明确标识出哪些对话违反了业务政策或法律法规,让合规状态一目了然。
- CI/CD 无缝集成:通过 CLI 模式将 rogue 嵌入流水线,每次代码提交即自动运行回归测试,确保新版本的 Agent 行为始终符合预期,大幅降低人力成本。
- 精准修复指引:提供包含实时对话回放、通过/失败判定及推理依据的详细报告,帮助开发人员快速定位问题根源并针对性优化。
rogue 将原本耗时数周的人工安全审计压缩为分钟级的自动化流程,确保 AI 代理在遭遇真实攻击前就已固若金汤。
运行环境要求
- 未说明 (基于 uvx/Python,通常支持 Linux
- macOS
- Windows)
未说明 (主要依赖外部 LLM API,本地无重型模型推理需求)
未说明

快速开始
Rogue — AI 代理评估与红队平台
加固您的代理的两种方式
🎯 自动化评估针对 业务策略 和预期行为测试您的代理。
最适合: 回归测试、行为验证、政策合规性检查 |
🔴 红队演练模拟 对抗性攻击 以发现安全漏洞。
最适合: 安全审计、渗透测试、合规报告 |
架构
Rogue 采用 客户端-服务器架构,配备多种接口:
| 组件 | 描述 |
|---|---|
| 服务器 | 核心评估与红队逻辑 |
| TUI | 现代终端界面(Go + Bubble Tea) |
| CLI | 用于 CI/CD 流水线的非交互模式 |
https://github.com/user-attachments/assets/b5c04772-6916-4aab-825b-6a7476d77787
支持的协议
| 协议 | 传输方式 | 描述 |
|---|---|---|
| A2A | HTTP | Google 的 Agent-to-Agent 协议 |
| MCP | SSE, STREAMABLE_HTTP | 模型上下文协议 通过 send_message 工具 |
| Python | — | 直接调用 Python 函数(无需网络协议) |
参考 examples/ 中的示例实现。
Python 入口点
对于未使用 A2A 或 MCP 而是作为 Python 函数实现的代理:
- 创建一个包含
call_agent函数的 Python 文件:
def call_agent(messages: list[dict]) -> str:
"""
处理对话并返回响应。
Args:
messages: 包含 {"role": "user"|"assistant", "content": "..."} 的列表
Returns:
代理的响应字符串
"""
# 您的代理逻辑在此处
latest = messages[-1]["content"]
return f"Response to: {latest}"
- 使用 Python 协议运行 Rogue:
uvx rogue-ai cli \
--protocol python \
--python-entrypoint-file ./my_agent.py \
--judge-llm openai/gpt-4o-mini
或者通过 TUI:选择“Python”作为协议,并输入文件路径。
完整示例请参阅 examples/python_entrypoint_stub.py。
🔥 快速入门
先决条件
uvx— 安装 uv- Python 3.10+
- LLM API 密钥(OpenAI、Anthropic 或 Google)
安装
# TUI(推荐)
uvx rogue-ai
# CLI / CI/CD
uvx rogue-ai cli
使用示例代理试用
# 一体化:同时启动 Rogue 和一个示例 T 恤店代理
uvx rogue-ai --example=tshirt_store
在 UI 中配置:
- 代理 URL:
http://localhost:10001 - 模式:选择“自动化评估”或“红队演练”
运行模式
| 模式 | 命令 | 描述 |
|---|---|---|
| 默认 | uvx rogue-ai |
服务器 + TUI |
| 服务器 | uvx rogue-ai server |
仅后端 |
| TUI | uvx rogue-ai tui |
终端客户端 |
| CLI | uvx rogue-ai cli |
非交互式(CI/CD) |
服务器选项
uvx rogue-ai server --host 0.0.0.0 --port 8000 --debug
CLI 选项
uvx rogue-ai cli \
--evaluated-agent-url http://localhost:10001 \
--judge-llm openai/gpt-4o-mini \
--business-context-file ./.rogue/business_context.md
| 选项 | 描述 |
|---|---|
--config-file |
配置 JSON 文件路径 |
--evaluated-agent-url |
代理端点(必填) |
--judge-llm |
用于评估的 LLM(必填) |
--business-context |
上下文字符串或 --business-context-file |
--input-scenarios-file |
场景 JSON |
--output-report-file |
报告输出路径 |
--deep-test-mode |
扩展测试 |
红队演练
扫描类型
| 类型 | 漏洞数 | 攻击数量 | 时间 |
|---|---|---|---|
| 基础 | 5 条精选 | 6 种 | ~2-3 分钟 |
| 全面 | 75+ | 40+ | ~30-45 分钟 |
| 自定义 | 用户选择 | 用户选择 | 不固定 |
合规框架
- OWASP LLM Top 10 — 提示注入、敏感数据泄露、过度授权
- MITRE ATLAS — 针对 AI 系统的对抗威胁态势
- NIST AI RMF — AI 风险管理框架
- ISO/IEC 42001 — AI 管理体系标准
- 欧盟《人工智能法案》 — 欧盟 AI 法规合规
- GDPR — 数据保护要求
- OWASP API Top 10 — API 安全最佳实践
攻击类别
| 类别 | 示例 |
|---|---|
| 编码 | Base64、ROT13、Leetspeak |
| 社会工程 | 角色扮演、建立信任 |
| 注入 | 提示注入、SQL 注入 |
| 语义 | 目标误导、情境毒化 |
| 技术 | 灰盒探测、权限提升 |
风险评分(基于 CVSS)
每个漏洞都会根据以下因素获得一个 0-10 的风险分值:
- 影响 — 漏洞被利用后的严重程度
- 可利用性 — 成功利用的可能性
- 人为因素 — 是否需要人工操作才能完成攻击
- 复杂度 — 攻击的难度
可复现的扫描
# 使用随机种子以获得可复现的结果
uvx rogue-ai cli --random-seed 42
非常适合回归测试和验证安全修复。
配置
环境变量
OPENAI_API_KEY="sk-..."
ANTHROPIC_API_KEY="sk-..."
GOOGLE_API_KEY="..."
配置文件(.rogue/user_config.json)
{
"evaluated_agent_url": "http://localhost:10001",
"judge_llm": "openai/gpt-4o-mini"
}
核心功能
| 功能 | 描述 |
|---|---|
| 🔄 动态场景 | 根据业务上下文自动生成测试用例 |
| 👀 实时监控 | 实时查看代理之间的对话 |
| 📊 全面报告 | 支持 Markdown、CSV 和 JSON 导出 |
| 🔍 多维度测试 | 政策合规性 + 安全漏洞检测 |
| 🤖 模型支持 | OpenAI、Anthropic、Google(通过 LiteLLM) |
| 🛡️ CVSS 评分 | 行业标准的风险评估 |
| 🔁 可复现 | 通过随机种子实现确定性扫描 |
文档
贡献
- 分支仓库
- 创建分支(
git checkout -b feature/amazing-feature) - 提交更改(
git commit -m '添加超赞功能') - 推送(
git push origin feature/amazing-feature) - 打开拉取请求
许可证
采用专有许可证授权 — 详见 LICENSE。
个人及内部使用免费。商业托管需获得许可。
联系方式:hello@rogue.security
版本历史
v0.5.02026/03/17v0.4.12026/02/24v0.4.02026/02/23v0.3.62026/02/05v0.3.52026/02/04v0.3.42026/01/18v0.3.32026/01/08v0.3.22026/01/07v0.3.12026/01/05v0.3.02026/01/02v0.2.32025/11/11v0.2.22025/11/09v0.2.12025/11/03v0.2.02025/10/29v0.1.132025/10/22v0.1.122025/10/15v0.1.112025/10/13v0.1.102025/10/09v0.1.92025/10/09v0.1.82025/10/09常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
