offensive-ai-compilation

GitHub
1.4k 158 非常简单 1 次阅读 昨天CC-BY-SA-4.0开发框架
AI 解读 由 AI 自动生成,仅供参考

offensive-ai-compilation 是一份精心整理的开源资源清单,专注于“进攻性人工智能”(Offensive AI)领域。它旨在帮助安全从业者系统性地理解人工智能模型面临的潜在威胁与攻击手段,从而更好地构建防御体系。

该资源库解决了 AI 安全学习中资料分散、分类不清的痛点。它将复杂的对抗性机器学习攻击梳理为四大核心类型:模型提取(窃取参数)、反演攻击(推断数据)、投毒攻击(污染训练数据)以及 evasion 攻击(绕过检测)。此外,它还涵盖了生成式 AI 在音频、图像、视频及文本领域的滥用风险,并提供了相应的检测方法与防御策略。

offensive-ai-compilation 特别适合网络安全研究人员、AI 开发者、渗透测试工程师以及对 AI 伦理与安全感兴趣的学生使用。其独特亮点在于不仅罗列了 Cleverhans、ART 等专业攻击工具,还针对每种攻击方式提供了具体的防御动作建议和学术文献链接,实现了从“攻击原理”到“防御实践”的闭环。无论是希望评估模型鲁棒性的开发者,还是致力于研究对抗样本的学者,都能从中获得极具价值的参考指引,共同提升人工智能系统的安全性。

使用场景

某金融科技公司安全团队正在对内部部署的信贷审批 AI 模型进行红队测试,旨在评估其抗攻击能力并防止核心算法泄露。

没有 offensive-ai-compilation 时

  • 资源搜集零散低效:团队成员需花费数天在 GitHub、arXiv 和各类博客中手动搜索对抗样本生成、模型提取等攻击技术,难以确认资料的时效性与权威性。
  • 防御策略缺乏系统性:面对潜在的“模型窃取”风险,团队仅知道概念,却找不到如 PRADA 或自适应误导等具体的防御架构实现方案,导致防护方案停留在理论层面。
  • 工具选型盲目:在寻找用于模拟攻击的开源工具(如 ART 或 Cleverhans)时,因缺乏对比指引,容易集成过时或不兼容的库,增加了测试环境的搭建成本。
  • 知识盲区明显:对于数据投毒、推理反转等高级攻击手段了解不足,无法全面覆盖测试场景,留下了严重的安全隐患。

使用 offensive-ai-compilation 后

  • 一站式获取权威资源:团队直接利用该清单中分类整理的“对抗性机器学习”板块,几分钟内即可锁定最新的攻击论文与案例研究,大幅缩短调研周期。
  • 精准落地防御措施:针对模型提取风险,团队迅速参考清单中提供的差分隐私、集成学习及特定防御架构链接,快速制定了可落地的加固方案。
  • 高效集成测试工具:通过清单推荐的经过验证的工具列表,团队直接部署了成熟的攻击框架进行模拟演练,确保了测试环境的专业性与稳定性。
  • 全覆盖风险排查:借助清单对攻击类型(提取、反转、投毒、规避)的系统化梳理,团队构建了完整的测试矩阵,有效识别并修复了此前被忽视的逻辑漏洞。

offensive-ai-compilation 将分散的攻防知识转化为结构化的行动指南,帮助安全团队从“盲目摸索”转变为“精准防御”,显著提升了 AI 系统的安全性评估效率。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该项目是一个资源列表(Awesome List),整理了关于攻击性人工智能(Offensive AI)的论文、工具和链接,本身不是一个可执行的软件工具,因此没有具体的运行环境、依赖库或硬件需求。用户需根据列表中提到的具体子项目(如 ART, Cleverhans, BackdoorBox 等)查阅其各自的文档以获取环境要求。
python未说明
offensive-ai-compilation hero image

快速开始

攻击性人工智能合集

一份精选的实用资源列表,涵盖攻击性人工智能领域。

📁 目录 📁

🚫 滥用 🚫

利用人工智能模型的漏洞进行攻击。

🧠 对抗机器学习 🧠

对抗机器学习旨在评估这些模型的弱点,并提供相应的防御措施。

⚡ 攻击 ⚡

攻击主要分为四类:提取、还原、毒化和规避。

对抗机器学习攻击

🔒 提取 🔒

通过发送请求以最大化信息提取量,试图窃取模型的参数和超参数。

提取攻击

根据攻击者对目标模型的了解程度,可以进行白盒攻击和黑盒攻击。

在最简单的白盒情况下(当攻击者完全了解模型结构时,例如一个Sigmoid函数),可以建立一组易于求解的线性方程。

而在一般情况下,即对模型了解不足时,则会使用替代模型。该模型通过对原始模型发出的请求进行训练,以模仿原始模型的功能。

白盒与黑盒提取攻击

⚠️ 局限性 ⚠️
  • 训练替代模型在很多情况下等同于从头开始训练一个新模型。

  • 计算成本非常高。

  • 攻击者在被检测之前,能够发出的请求数量有限。

🛡️ 防御措施 🛡️
🔗 有用链接 🔗
⬅️ 还原(或推断)⬅️

其目的是逆转机器学习模型的信息流。

推断攻击

这类攻击使攻击者能够了解原本并未打算公开的模型内部信息。

它们还可以帮助我们获取训练数据或作为模型统计特征的信息。

主要有三种类型:

  • 成员身份推断攻击(MIA):攻击者试图确定某个样本是否曾被用于训练过程。

  • 属性推断攻击(PIA):攻击者旨在提取那些在训练阶段并未明确编码为特征的统计特性。

  • 重构:攻击者尝试从训练集中重建一个或多个样本及其对应的标签。也称为还原。

🛡️ 防御措施 🛡️
🔗 有用链接 🔗
💉 毒化 💉

其目标是通过使机器学习模型的准确性降低来破坏训练集。

毒化攻击

这种攻击在对训练数据实施时很难被发现,因为攻击可以在使用相同训练数据的不同模型之间传播。

攻击者试图通过修改决策边界来破坏模型的可用性,从而产生错误的预测,或者在模型中创建后门。在后一种情况下,模型在大多数情况下表现正常(返回预期的预测结果),但当遇到攻击者专门设计的某些输入时,却会产生非预期的结果。攻击者可以操纵预测结果,并借此发动未来的攻击。

🔓 后门 🔓

BadNets是机器学习模型中最简单的后门类型。此外,即使将模型重新训练用于与原始模型不同的任务(迁移学习),BadNets仍然能够保留在模型中。

需要注意的是,公开的预训练模型可能包含后门

🛡️ 防御措施 🛡️
🔗 有用链接 🔗
🏃‍♂️ 逃避攻击 🏃‍♂️

攻击者会在机器学习模型的输入上添加微小的扰动(以噪声的形式),使其分类错误(示例攻击者)。

逃避攻击

它们类似于投毒攻击,但主要区别在于,逃避攻击试图利用模型在推理阶段的弱点。

攻击者的目标是让对抗样本对人类来说几乎无法察觉。

根据对手期望的输出,可以执行两种类型的攻击:

  • 定向攻击:攻击者旨在获得自己选择的预测结果。

    定向攻击

  • 非定向攻击:攻击者意图实现错误分类。

    非定向攻击

最常见的攻击是白盒攻击

🛡️ 防御措施 🛡️
  • 对抗训练,即在训练过程中生成对抗样本,使模型学会识别对抗样本的特征,从而提高其对这类攻击的鲁棒性。
  • 对输入进行变换。
  • 梯度掩蔽/正则化。效果不佳
  • 弱防御措施。
  • 提示注入防御:所有实用且提出的提示注入防御措施。stars
  • Lakera PINT基准测试:提示注入测试(PINT)基准提供了一种中立的方式来评估提示注入检测系统的性能,例如Lakera Guard,而无需依赖这些工具可能用来优化评估表现的已知公开数据集。stars
  • 恶魔推理:一种通过观察Phi-3 Instruct模型在特定输入下的注意力分布来对抗性地评估该模型的方法。这种方法促使模型采取“恶魔心态”,从而生成暴力性质的输出。stars
  • 空中对抗攻击检测:从数据集到防御
  • 利用双曲几何检测并净化有害提示
🔗 有用链接 🔗

🛠️ 工具 🛠️

名称 类型 支持的算法 支持的攻击类型 攻击/防御 支持的框架 流行度
Cleverhans 图像 深度学习 欺骗 攻击 Tensorflow, Keras, JAX stars
Foolbox 图像 大量学习 欺骗 攻击 Tensorflow, PyTorch, JAX stars
ART 任意类型(图像、表格数据、音频等) 深度学习、SVMLR 任意(提取、推理、投毒、欺骗) 双方 Tensorflow、Keras、Pytorch、Scikit Learn stars
TextAttack 文本 深度学习 欺骗 攻击 Keras、HuggingFace stars
Advertorch 图像 深度学习 欺骗 双方 --- stars
AdvBox 图像 深度学习 欺骗 双方 PyTorch、Tensorflow、MxNet stars
DeepRobust 图像、图 深度学习 欺骗 双方 PyTorch stars
Counterfit 任意 任意 欺骗 攻击 --- stars
Adversarial Audio Examples 音频 DeepSpeech 欺骗 攻击 --- stars
ART

对抗鲁棒性工具箱,简称ART,是一个开源的对抗机器学习库,用于测试机器学习模型的鲁棒性。

ART logo

它使用Python开发,实现了提取、逆向、投毒和欺骗等攻击与防御方法。

ART支持最流行的框架:Tensorflow、Keras、PyTorch、MxNet以及ScikitLearn等众多框架。

它不仅限于处理以图像为输入的模型,还支持其他类型的数据,如音频、视频、表格数据等。

使用ART学习对抗机器学习的研讨会 🇪🇸

Cleverhans

Cleverhans是一个用于执行欺骗攻击并测试图像模型深度学习鲁棒性的库。

Cleverhans logo

它使用Python开发,并与Tensorflow、Torch和JAX框架集成。

它实现了多种攻击方法,如L-BFGS、FGSM、JSMA、C&W等。

🔧 使用 🔧

人工智能被用于完成恶意任务并增强传统攻击手段。

🕵️‍♂️ 渗透测试 🕵️‍♂️

🦠 恶意软件 🦠

🗺️ OSINT 🗺️

  • SNAP_R: 自动生成社交媒体上的鱼叉式钓鱼帖子。stars
  • SpyScrap: SpyScrap结合了面部识别技术来筛选结果,并利用自然语言处理从用户出现的网站中提取重要实体。stars

📧 钓鱼邮件 📧

🕵 威胁情报 🕵

⚙️ 逆向工程 ⚙️

🌀 侧信道 🌀

  • SCAAML: 机器学习辅助的侧信道攻击。stars

👨‍🎤 生成式AI 👨‍🎤

🔊 音频 🔊

🛠️ 工具 🛠️
  • deep-voice-conversion: 基于 TensorFlow 的深度神经网络语音转换(语音风格迁移)工具。stars
  • tacotron: Google Tacotron 语音合成的 TensorFlow 实现,包含预训练模型(非官方)。stars
  • Real-Time-Voice-Cloning: 在 5 秒内克隆一段声音,实时生成任意语音。stars
  • mimic2: 基于 Tacotron 架构的文本转语音引擎,最初由 Keith Ito 实现。stars
  • Neural-Voice-Cloning-with-Few-Samples: 百度发表的少样本神经网络语音克隆研究论文的实现。stars
  • Vall-E: 音频语言模型 VALL-E 的非官方 PyTorch 实现。stars
  • voice-changer: 实时语音变换器。stars
  • Retrieval-based-Voice-Conversion-WebUI: 基于 VITS 的易用型语音转换框架。stars
  • Audiocraft: Audiocraft 是一个用于音频处理与生成的深度学习库。它包含最先进的 EnCodec 音频压缩器/分词器,以及 MusicGen——一种简单可控、可通过文本和旋律条件生成音乐的语言模型。stars
  • VALL-E-X: 微软 VALL-E X 零样本 TTS 模型的开源实现。stars
  • OpenVoice: MyShell 提供的即时语音克隆服务。stars
  • MeloTTS: MyShell.ai 推出的高质量多语言文本转语音库,支持英语、西班牙语、法语、中文、日语和韩语。stars
  • VoiceCraft: 零样本语音编辑及野外环境下的文本转语音技术。stars
  • Parler-TTS: 高质量 TTS 模型的推理与训练库。stars
  • ChatTTS: 用于日常对话的生成式语音模型。stars
💡 应用场景 💡
🔎 检测 🔎

📷 图像 📷

🛠️ 工具 🛠️
  • StyleGAN: StyleGAN - 官方 TensorFlow 实现。stars
    • StyleGAN2: StyleGAN2 - 官方 TensorFlow 实现。stars
    • stylegan2-ada-pytorch: StyleGAN2-ADA - 官方 PyTorch 实现。stars
    • StyleGAN-nada: 基于 CLIP 的图像生成器领域自适应。stars
    • StyleGAN3: StyleGAN3 的官方 PyTorch 实现。stars
    • Imaginaire: Imaginaire 是一个 PyTorch 库,包含了 NVIDIA 研发的多种图像和视频合成方法的优化实现。stars
    • ffhq-dataset: Flickr-Faces-HQ 数据集 (FFHQ)。stars
    • DALLE2-pytorch: OpenAI 更新的文本到图像合成神经网络 DALL-E 2 的 PyTorch 实现。stars
    • ImaginAIry: AI 想象的图像。Python 风格的稳定扩散图像生成工具。stars
    • Lama Cleaner: 基于 SOTA AI 模型的图像修复工具。可以移除照片中的任何不需要的对象、瑕疵或人物,也可以擦除并替换照片中的内容(基于稳定扩散模型)。stars
    • Invertible-Image-Rescaling: 论文《可逆图像缩放》的 PyTorch 实现。stars
    • DifFace: 基于扩散误差收缩的盲人面部修复(PyTorch)。stars
    • CodeFormer: 基于码本查找变换器的鲁棒盲人面部修复。stars
    • Custom Diffusion: 文本到图像扩散模型的多概念自定义。stars
    • Diffusers: 🤗 Diffusers:用于图像和音频生成的最先进扩散模型,基于 PyTorch。stars
    • Stable Diffusion: 使用潜在扩散模型进行高分辨率图像合成。stars
    • InvokeAI: InvokeAI 是 Stable Diffusion 模型领域的领先创作引擎,赋能专业人士、艺术家和爱好者使用最新的 AI 驱动技术生成和创作视觉媒体。该解决方案提供行业领先的 WebUI,支持通过 CLI 进行终端操作,并作为多个商业产品的基础。stars
    • Stable Diffusion web UI: Stable Diffusion 的 Web 界面。stars
    • Stable Diffusion Infinity: 在无限画布上使用 Stable Diffusion 进行扩展绘画。stars
    • Fast Stable Diffusion: 快速稳定扩散 + DreamBooth。stars
    • GET3D: 一种从图像中学习的高质量 3D 纹理形状生成模型。stars
    • Awesome AI Art Image Synthesis: 一份关于 AI 艺术和图像合成的优秀工具、创意、提示工程工具、合作项目、模型和辅助资源的列表。涵盖 Dalle2、MidJourney、StableDiffusion 以及开源工具。stars
    • Stable Diffusion: 一种潜在的文本到图像扩散模型。stars
    • Weather Diffusion: “利用基于补丁的去噪扩散模型恢复恶劣天气条件下的视觉”相关代码。stars
    • DF-GAN: 一种简单而有效的文本到图像合成基线。stars
    • Dall-E Playground: 一个使用 Stable Diffusion(过去曾使用 DALL-E Mini)根据任意文本提示生成图像的平台。stars
    • MM-CelebA-HQ-Dataset: 一个大规模人脸图像数据集,可用于文本到图像生成、文本引导的图像编辑、素描到图像生成、用于人脸生成和编辑的 GAN、图像描述以及 VQA。stars
    • Deep Daze: 一个简单的命令行工具,使用 OpenAI 的 CLIP 和 Siren(隐式神经表示网络)进行文本到图像生成。stars
    • StyleMapGAN: 利用 GAN 中潜在空间的维度实现实时图像编辑。stars
    • Kandinsky-2: 多语言文本到图像潜在扩散模型。stars
    • DragGAN: 在生成式图像流形上进行交互式的基于点的操作。stars
    • Segment Anything: 该仓库提供了运行 SegmentAnything Model (SAM) 推理的代码、下载训练好的模型检查点的链接,以及展示如何使用该模型的示例笔记本。stars
    • Segment Anything 2: 该仓库提供了运行 Meta Segment Anything Model 2 (SAM 2) 推理的代码、下载训练好的模型检查点的链接,以及展示如何使用该模型的示例笔记本。stars
    • MobileSAM: 这是 MobileSAM 项目的官方代码,旨在使 SAM 更轻量级,适用于移动应用及其他场景!stars
    • FastSAM: 快速分割一切。stars
    • Infinigen: 使用程序化生成创建无限逼真的世界。stars
    • DALL·E 3
    • StreamDiffusion: 一种面向管道级别的实时交互式生成解决方案。stars
    • AnyDoor: 零样本对象级图像定制。stars
    • DiT: 基于 Transformer 的可扩展扩散模型。stars
    • BrushNet: 一种即插即用的图像修复模型,采用分解的双分支扩散机制。stars
    • OOTDiffusion: 基于潜在扩散的可控虚拟试穿融合。stars
    • VAR: “视觉自回归建模:通过下一尺度预测实现可扩展图像生成”的官方实现。stars
    • Imagine Flash: 加速 Emu 扩散模型的反向蒸馏
💡 应用 💡
  • ArtLine:基于深度学习的线稿肖像生成项目。stars
    • Depix:从像素化截图中恢复密码。stars
    • 让老照片重焕生机:老照片修复(官方 PyTorch 实现)。stars
    • Rewriting:交互式工具,可直接编辑 GAN 的规则,以合成添加、删除或修改对象的场景。例如将 StyleGANv2 改造为拥有夸张眉毛或戴帽子的马匹。stars
    • Fawkes:用于对抗人脸识别系统的隐私保护工具。stars
    • Pulse:通过探索生成模型的潜在空间实现自监督照片超分辨率。stars
    • HiDT:论文《无需领域标签的高分辨率白天图像转换》的官方仓库。stars
    • 3D Photo Inpainting:使用上下文感知分层深度修复技术进行 3D 摄影。stars
    • SteganoGAN:一种利用对抗训练生成隐写图像的工具。stars
    • Stylegan-T:释放 GAN 力量,实现快速的大规模文本到图像合成。stars
    • MegaPortraits:一次性生成百万像素级神经网络头像。stars
    • eg3d:高效的几何感知 3D 生成对抗网络。stars
    • TediGAN:TediGAN 的 PyTorch 实现:文本引导的多样化人脸图像生成与操控。stars
    • DALLE-pytorch:OpenAI 的文本到图像 Transformer DALL-E 在 PyTorch 中的实现/复现。stars
    • StyleNeRF:这是 ICLR2022 论文《StyleNeRF:用于高分辨率图像合成的基于风格的 3D 感知生成器》的开源实现。stars
    • DeepSVG:论文《DeepSVG:面向矢量图形动画的层次化生成网络》的官方代码。包含用于 SVG 数据深度学习的 PyTorch 库。stars
    • NUWA:统一的 3D 变换器流水线,用于视觉合成。stars
    • Image-Super-Resolution-via-Iterative-Refinement:PyTorch 非官方实现的迭代细化超分辨率方法。stars
    • Lama:🦙 LaMa 图像修复,采用傅里叶卷积实现对大尺寸遮罩的稳健修复。stars
    • Person_reID_baseline_pytorch:PyTorch ReID:一个轻量、友好且强大的目标再识别基准实现。stars
    • instruct-pix2pix:InstructPix2Pix 的 PyTorch 实现,这是一种基于指令的图像编辑模型。stars
    • GFPGAN:GFPGAN 致力于开发适用于现实世界的人脸修复实用算法。stars
    • DeepVecFont:通过双模态学习合成高质量矢量字体。stars
    • Stargan v2 Tensorflow:官方 TensorFlow 实现。stars
    • StyleGAN2 蒸馏:成对的图像到图像翻译任务,基于 StyleGAN2 生成的合成数据进行训练,在图像操控方面优于现有方法。stars
    • 从扩散模型中提取训练数据
    • Mann-E - Mann-E(波斯语:مانی)是一个艺术生成模型,基于 Stable Diffusion 1.5 的权重以及从 Pinterest 上收集的艺术素材
    • 端到端训练的 CNN 编码器-解码器网络用于图像隐写术
    • Grounded-Segment-Anything:将 Grounding DINO 与 Segment Anything、Stable Diffusion、Tag2Text、BLIP、Whisper 和 ChatBot 相结合——能够自动检测、分割并根据图像、文本和音频输入生成任何内容。stars
    • AnimateDiff:无需特定调优即可为您的个性化文本到图像扩散模型添加动画效果。stars
    • BasicSR:用于超分辨率、去噪、去模糊等任务的开源图像和视频修复工具箱。目前包括 EDSR、RCAN、SRResNet、SRGAN、ESRGAN、EDVR、BasicVSR、SwinIR、ECBSR 等,并支持 StyleGAN2 和 DFDNet。[stars](https://github.com/XPixelGroup/ BasicSR)
    • Real-ESRGAN:Real-ESRGAN 致力于开发通用图像/视频修复的实用算法。stars
    • ESRGAN:增强版 SRGAN。在 PIRM 感知超分辨率挑战赛中夺冠。stars
    • MixNMatch:用于条件图像生成的多因子解耦与编码。stars
    • Clarity-upscaler:为所有人重新构想的图像超分辨率工具。stars
    • 一步扩散与分布匹配蒸馏
    • 隐形缝合:通过深度修复生成平滑的 3D 场景。stars
    • SSR:单视图高保真形状与纹理的 3D 场景重建。stars
    • InvSR:通过扩散反演实现任意步数的图像超分辨率。stars
    • REPARO:通过可微分的 3D 布局对齐生成组合式 3D 资产。stars
    • Gen3DSR:从单视图出发,通过分治法实现可推广的 3D 场景重建。stars
    • ml-sharp:在不到一秒钟内完成清晰的单目视图合成。stars
🔎 检测 🔎

🎥 视频 🎥

🛠️ 工具 🛠️
  • DeepFaceLab: DeepFaceLab 是领先的深度伪造制作软件。stars
  • faceswap: 适用于所有人的深度伪造软件。stars
  • dot: 深度伪造攻击工具包。stars
  • SimSwap: 一个基于单一训练模型的任意人脸交换框架,可用于图像和视频!stars
  • faceswap-GAN: 一种去噪自编码器 + 对抗损失和注意力机制的人脸交换方法。stars
  • Celeb DeepFakeForensics: 一个大规模且具有挑战性的深度伪造取证数据集。stars
  • VGen: 基于扩散模型构建的综合性视频生成生态系统。stars
  • MuseV: 基于视觉条件并行去噪技术,实现无限长度、高保真度的虚拟人视频生成。stars
  • GLEE: 面向图像和视频的大规模通用对象基础模型。stars
  • T-Rex: 通过文本-视觉提示协同作用实现通用目标检测。stars
  • DynamiCrafter: 利用视频扩散先验对开放域图像进行动画化处理。stars
  • Mora: 更接近 Sora 的通用视频生成模型。stars
💡 应用 💡
  • face2face-demo: 基于人脸关键点学习并将其转换为面部的pix2pix演示。stars
    • Faceswap-Deepfake-Pytorch: 使用PyTorch实现的人脸交换或深度伪造。stars
    • Point-E: 用于3D模型合成的点云扩散模型。stars
    • EGVSR: 高效且通用的视频超分辨率技术。stars
    • STIT: 时间拼接:基于GAN的真实视频人脸编辑。stars
    • BackgroundMattingV2: 实时高分辨率背景抠图。stars
    • MODNet: 无需三元图的实时人像抠图解决方案。stars
    • Background-Matting: 背景抠图:世界即你的绿幕。stars
    • First Order Model: 该仓库包含论文《用于图像动画的一阶运动模型》的源代码。stars
    • Articulated Animation: 该仓库包含CVPR'2021论文《关节动画的运动表示》的源代码。stars
    • Real Time Person Removal: 使用TensorFlow.js在网页浏览器中实时从复杂背景中移除人物。stars
    • AdaIN-style: 使用自适应实例归一化实现实时任意风格迁移。stars
    • Frame Interpolation: 大运动帧插值。stars
    • Awesome-Image-Colorization: 📚 基于深度学习的图像着色和视频着色论文集。stars
    • SadTalker: 学习用于风格化音频驱动单张图片说话人脸动画的真实3D运动系数。stars
    • roop: 一键式深度伪造(人脸交换)。stars
    • StableVideo: 文本驱动的一致性感知扩散视频编辑。stars
    • MagicEdit: 高保真、时间一致的视频编辑。stars
    • Rerender_A_Video: 零样本文本引导的视频到视频翻译。stars
    • DreamEditor: 基于神经场的文本驱动3D场景编辑。stars
    • DreamEditor: 4K分辨率下的实时4D视图合成。stars
    • AnimateAnyone: 用于角色动画的一致且可控的图像到视频合成。stars
    • Moore-AnimateAnyone: 该仓库复现了AnimateAnyone。stars
    • audio2photoreal: 从音频到照片级逼真化身:在对话中合成人类形象。stars
    • MagicVideo-V2: 多阶段高美学视频生成
    • LWM: 一种通用的大上下文多模态自回归模型。它使用RingAttention在大量多样化的长视频和书籍数据上训练,能够进行语言、图像和视频的理解与生成。stars
    • AniPortrait: 音频驱动的写实人像动画合成。stars
    • Champ: 基于3D参数化指导的可控且一致的人像动画。stars
    • Streamv2v: 借助特征库实现的流式视频到视频翻译。stars
    • Deep-Live-Cam: 仅需一张图片即可实现实时人脸交换和一键式视频深度伪造。stars
    • Sapiens: 人类视觉模型的基础。stars
    • ViVid-1-to-3: 利用视频扩散模型进行新颖视图合成。stars
    • VGGT: 视觉几何基础Transformer。stars
    • LayerPano3D: 分层3D全景图,用于超沉浸式场景生成。stars
    • RealmDreamer: 基于文本驱动的3D场景生成,结合修复和深度扩散技术。stars
🔎 检测 🔎

📄 文本 📄

🛠️ 工具 🛠️
  • GLM-130B: 一个开源的双语预训练模型。stars
  • LongtermChatExternalSources: 具有长期记忆和外部信息源的GPT-3聊天机器人。stars
  • sketch: 一款能够理解数据内容的AI代码编写助手。stars
  • LangChain: ⚡ 通过可组合性构建大型语言模型应用 ⚡。stars
  • ChatGPT Wrapper: 使用Python和Shell与ChatGPT交互的API。stars
  • openai-python: OpenAI Python库为使用Python语言编写的应用程序提供了便捷的OpenAI API访问接口。stars
  • Beto: BERT模型的西班牙语版本。stars
  • GPT-Code-Clippy: GPT-Code-Clippy (GPT-CC) 是GitHub Copilot的开源版本,基于GPT-3的语言模型,称为GPT-Codex。stars
  • GPT Neo: 使用mesh-tensorflow库实现的模型并行GPT-2和GPT-3风格模型。stars
  • ctrl: 用于可控生成的条件Transformer语言模型。stars
  • Llama: LLaMA模型的推理代码。stars
  • Llama2
  • Llama Guard 3
  • UL2 20B: 一个开源的统一语言学习模型
  • burgpt: 一个Burp Suite扩展,集成了OpenAI的GPT,用于执行额外的被动扫描以发现高度定制化的漏洞,并支持对任何类型的流量进行分析。stars
  • Ollama: 在本地快速启动并运行Llama 2及其他大型语言模型。stars
  • SneakyPrompt: 突破文本到图像生成模型的安全限制。stars
    • Copilot-For-Security: 一种由生成式AI驱动的安全解决方案,旨在以机器速度和规模提升防御者的效率和能力,从而改善安全成果,同时遵守负责任的AI原则。stars
  • LM Studio: 发现、下载并运行本地大型语言模型
  • Bypass GPT: 将AI文本转换为人类风格的内容
  • MGM: 该框架支持从2B到34B的一系列密集型和MoE大型语言模型(LLMs),同时具备图像理解、推理和生成能力。stars
  • Secret Llama: 完全私密的LLM聊天机器人,完全在浏览器中运行,无需服务器。支持Mistral和LLama 3。stars
  • Llama3: Meta Llama 3的官方GitHub站点。stars
  • Unsloth: 以80%更少的内存,将Llama 3.3、Mistral、Phi-4、Qwen 2.5及Gemma 2的速度提升2倍!stars
🔎 检测 🔎
💡 应用 💡

📚 杂项 📚

📊 调查研究 📊

🗣 维护者 🗣


Miguel Hernández

José Ignacio Escribano

©️ 许可证 ©️

许可证:CC BY-SA 4.0

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

160.8k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|昨天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架