Agentic-ADK

GitHub
665 125 较难 1 次阅读 3天前Apache-2.0开发框架Agent
AI 解读 由 AI 自动生成,仅供参考

Agentic ADK 是由阿里巴巴国际数字商业集团推出的智能体(Agent)应用开发框架,它融合了 Google ADK 的接口设计与阿里自研 LangEngine 的核心能力。该工具旨在解决复杂 AI 智能体在构建、评估及部署过程中面临的流程繁琐、多模态对齐难及协作控制复杂等痛点,让开发者能更轻松地编排从简单任务到多智能体协同的各类应用。

Agentic ADK 主要面向 AI 应用开发者、算法工程师及技术研究人员。其独特亮点在于深度集成了阿里国际多模态大模型 Ovis,显著提升了视觉与文本信息的融合能力及跨语言逻辑推理水平;同时,基于高性能工作流引擎 SmartEngine 和 RxJava3 响应式编程模型,支持同步、异步、流式及并行等多种执行模式,并原生兼容 A2A 协议。此外,框架还内置了丰富的上下文记忆管理、数百种 API 工具及 MCP 集成网关,提供了包括深度研究、电脑操作及浏览器使用在内的多种最佳实践范例,是构建强大、灵活且可控的智能体应用的理想选择。

使用场景

某跨境电商公司的技术团队正在构建一个能自动分析全球竞品海报、提取促销信息并生成多语种运营报告的智能助手。

没有 Agentic-ADK 时

  • 多模态处理割裂:开发团队需分别调用 OCR 接口和语言模型,难以精准识别海报中复杂的多语种表格与图表,导致数据提取错误率高。
  • 工作流编排复杂:实现“识别 - 推理 - 报告”的串行逻辑需手写大量异步回调代码,调试困难且无法直观监控中间状态。
  • 记忆上下文缺失:Agent 无法在长对话中保留历史分析结果,每次新任务都需重新输入背景,导致重复计算且响应迟缓。
  • 跨国部署门槛高:缺乏统一框架整合阿里国际站特有的 Ovis 大模型能力,适配不同语言环境的推理逻辑需反复定制开发。

使用 Agentic-ADK 后

  • 深度多模态融合:直接集成 Ovis 大模型,利用其增强的跨语言 OCR 与逻辑推理能力,一键精准提取英、法、西等多语种海报中的结构化促销数据。
  • 可视化流程编排:基于节点式工作流引擎,通过配置即可定义同步/异步执行路径,配合可视化调试工具实时查看数据流转,开发效率提升 50% 以上。
  • 内置长短期记忆:原生支持 Session 与 Memory 插件,Agent 自动关联历史竞品分析记录,生成报告时能主动对比过往趋势,无需额外编码。
  • 开箱即用的全球化:无缝调用阿里国际多模态模型接口,预置多语言理解最佳实践,快速构建出适应全球市场的智能分析应用。

Agentic-ADK 通过深度融合多模态推理与灵活的工作流编排,让复杂的跨国电商智能体开发从“手工拼凑”变为“标准化组装”。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notes该项目基于 Java 开发(徽章显示 OpenJDK),并集成了阿里巴巴的 SmartEngine 工作流引擎。虽然支持对接多种大模型(如 Ovis、Qwen、OpenAI 等),但 README 中未明确列出运行框架本身所需的特定 GPU 型号、显存大小、Python 版本或具体内存需求。实际资源需求可能取决于所选择部署的大模型规模及并发量。
python未说明
Google-ADK
Ali-LangEngine
RxJava3
OpenJDK (Java)
Agentic-ADK hero image

快速开始

关于

Agentic ADK 是阿里巴巴国际 AI 业务推出的一款基于 Google-ADK 和 Ali-LangEngine 的 Agent 应用开发框架。

版本 许可证 星标 问题 Java

中文版说明

Agentic ADK

Agentic ADK 是阿里巴巴国际 AI 业务推出的一款基于 Google-ADK 和 Ali-LangEngine 的 Agent 应用开发框架。它用于开发、构建、评估和部署功能强大、灵活可控的复杂 AI Agent。ADK 致力于让 Agent 开发更加简单易用,使开发者能够更轻松地构建、部署和编排从简单任务到复杂协作的各种 Agent 应用程序。

观看视频

功能概览

  • 基于 Google ADK 接口,强化了流式交互和可视化调试工具等核心执行路径,使开发者能够高效开发 Agent 应用。
  • 与阿里巴巴国际多模态大语言模型 Ovis 无缝集成,实现视觉与文本信息的深度对齐与融合。该模型具有高性能和轻量化的特点,为高效开发和部署多模态 Agent 提供以下优势:
    • 卓越的逻辑推理能力:通过指令微调和偏好学习相结合,显著提升了模型的思维链(CoT)推理能力,使其能够更好地理解并执行复杂指令。
    • 精准的跨语言理解和识别:除了中英文之外,该模型在多语言环境下的文本识别(OCR)能力得到提升,并优化了从表格、图表等复杂视觉元素中提取结构化数据的准确性。
  • 灵活的 多 Agent 框架,支持同步、异步、流式和并行等多种执行模式,并自然集成 A2A 协议。
  • 结合 Agent 的高性能工作流引擎,基于阿里巴巴 SmartEngine 工作流引擎构建,采用 RxJava3 实现响应式编程模型。它使用基于节点的流程系统来定义 Agent 行为,支持同步、异步及双向通信模式,为构建复杂 AI 应用提供了灵活的基础。
  • 提供数百个 API 工具,并引入 MCP 集成网关。
  • 包含 DeepResearch/RAG、ComputerUse、BrowserUse、Sandbox 等 Agentic AI 的最佳实践。
  • 实现 Agent 对话的上下文扩展,包括 Session、Memory、Artifact 等,并内置短期和长期记忆插件。
  • 提供提示词自动化调优以及与安全风险控制相关的 Agent 示例。

架构图

框架设计

基于 Google ADK 接口的设计

Agentic ADK 继承了 google-adk 的优秀设计,并支持以下关键特性:

LLM

丰富的大型模型选择。原生兼容 OpenAI、百炼/Qwen、OpenRouter、Claude 等模型/供应商的使用。

组件抽象 描述
LangEngine 该组件支持 LangEngine 生态下所有兼容的第三方 Model/WorkSpace 集成到 Agent 系统中,包括 OpenAI、百炼/Qwen、Idealab、OpenRouter 等。
DashScopeLlm 支持与阿里云百炼上的 OpenAPI 接口集成

Agent

高度抽象的 Agent 定义和灵活的 Agent 编排。框架内置了 LLM、顺序、并行、循环等 Agent 定义;支持单 Agent 和多 Agent(MAS)架构设计,便于扩展您的 Agent 设计模式和架构。

组件抽象 描述
LlmAgent ADK 中的核心组件,充当应用程序的“思考”部分。它利用大型语言模型(LLM)的强大功能进行推理、理解自然语言、做出决策、生成响应以及与工具交互。
SequentialAgent 一种按列表中指定顺序执行其子 Agent 的 WorkflowAgent。
LoopAgent 一种以循环(即迭代)方式执行其子 Agent 的 WorkflowAgent。它会重复运行一组 Agent,直到达到指定的迭代次数或满足终止条件。
ParallelAgent 一种可以并发执行其子 Agent 的 WorkflowAgent,在子任务可以独立执行时,能够显著加快整个工作流的速度。
其他高级概念 CustomAgents: 通过继承 google.adk.agents.BaseAgent,可以实现自定义 Agent 处理流程。
Multi-Agent Systems: 可以将多个不同的 Agent 实例组合成一个多智能体系统(MAS),从而支持构建更复杂的应用程序

工具

丰富的工具集合。轻松集成 Function/MCP 以及任何第三方工具。

组件抽象 描述
Function Tool FunctionTool: 将函数作为工具,任何方法都可以转换为 Agent 可调用的 Tool。
LongRunningFunctionTool: 专为需要较长时间处理且不会阻塞 Agent 执行的任务设计。
AgentTool: 通过将其他 Agent 编排为工具,可以充分利用它们在系统中的能力。该工具允许当前 Agent 调用另一个 Agent 来执行特定任务,从而有效委派职责。
DashScopeTool 与阿里云百炼工具应用的集成
MCPTool ADK 内置的 MCP 工具
GoogleSearchTool ADK 内置的 Google 搜索工具
GUITaskExecuteTool ADK 内置的 GUI 任务执行工具

回调

灵活的回调机制。在 Agent 执行过程中的多个时间节点提供钩子,便于在 LLM/工具/Agent 调用前后实现自定义逻辑。

参考:https://google.github.io/adk-docs/callbacks

最佳实践:https://google.github.io/adk-docs/callbacks/design-patterns-and-best-practices/

调试与评估

开箱即用的调试和评估能力。无论是在本地还是远程,都提供白屏调试页面,方便快速调试 Agent。

高性能动态工作流引擎集成

基于阿里巴巴的SmartEngine工作流引擎构建,采用RxJava3实现响应式编程模式,使用基于节点的流程系统定义智能体行为,并支持同步、异步及双向通信模式,为构建复杂的人工智能应用提供了灵活的基础。

┌─────────────────────────────────────────────────────────────────────┐
│                          用户应用层                             │
├─────────────────────────────────────────────────────────────────────┤
│                       运行器(执行入口)                         │
├─────────────────────────────────────────────────────────────────────┤
│                    管道处理层                                   │
│   ┌─────────────┐  ┌────────────────┐  ┌─────────────────────────┐  │
│   │ 智能体      │  │  ...           │  │ 自定义处理              │  │
│   │ 执行        │  │                │  │ 管道处理                │  │
│   │   管道      │  │                │  │                         │  │
│   └─────────────┘  └────────────────┘  └─────────────────────────┘  │
├─────────────────────────────────────────────────────────────────────┤
│                    流程引擎层                                 │
│   ┌─────────────┐  ┌────────────────┐  ┌─────────────────────────┐  │
│   │ 流程画布    │  │                │  │                         │  │
│   │ (流程       │  │    流程节点    │  │  委托执行器             │  │
│   │ 容器)       │  │                │  │                         │  │
│   └─────────────┘  └────────────────┘  └─────────────────────────┘  │
├─────────────────────────────────────────────────────────────────────┤
│                    AI能力抽象层                               │
│   ┌─────────────┐  ┌────────────────┐  ┌─────────────────────────┐  │
│   │ 基础Llm     │  │    基础工具    │  │        基础条件        │  │
│   │ (LLM模型)   │  │   (工具集)     │  │  (条件判断)            │  │
│   └─────────────┘  └────────────────┘  └─────────────────────────┘  │
├─────────────────────────────────────────────────────────────────────┤
│                    基础设施层                                 │
│   ┌─────────────┐  ┌────────────────┐  ┌─────────────────────────┐  │
│   │ SmartEngine │  │   RxJava3      │  │  Spring框架           │  │
│   │ (工作流   │  │ (响应式      │  │  (依赖注入              │  │
│   │ 引擎)       │  │ 编程          │  │  框架)                 │  │
│   │             │  │ 框架)         │  │                         │  │
│   └─────────────┘  └────────────────┘  └─────────────────────────┘  │
└─────────────────────────────────────────────────────────────────────┘

核心组件

流程引擎组件
  • FlowCanvas:流程定义的主要容器,用于构建和部署工作流。
  • FlowNode:所有流程节点的基类,定义节点的基本行为。
  • 节点类型
    • LlmFlowNode:用于与大型语言模型交互。
    • ToolFlowNode:用于执行外部工具。
    • ConditionalContainer:用于条件分支。
    • ParallelFlowNode:用于并行执行。
    • ReferenceFlowNode:用于引用其他流程。
执行组件
  • Runner:流程执行的主要入口。
  • DelegationExecutor:负责处理委托任务的执行。
  • SystemContext:包含执行上下文和配置信息。
  • Request/Result:请求和响应的数据结构。
AI能力组件
  • BasicLlm接口及其实现(如DashScopeLlm):定义并实现与大型语言模型的交互。
  • LlmRequest/LlmResponse:大型语言模型交互的数据结构。
  • BaseTool接口及其实现(如DashScopeTools):定义并实现外部工具调用。
管道系统
  • PipeInterface:管道组件的接口。
  • AgentExecutePipe:执行管道的主要实现。
  • PipelineUtil:用于管道执行的工具类。

执行模式

该框架支持三种执行模式:

  1. SYNC(同步模式):顺序执行,等待每个节点完成后再执行下一个。
  2. ASYNC(异步模式):异步执行,可并行处理多个任务。
  3. BIDI(双向模式):支持双向通信,可动态接收输入。

使用指南与示例

详细使用指南(Java)

DeepSearchAgent代码示例(Java)

许可证

本项目采用Apache许可证2.0版授权(https://www.apache.org/licenses/LICENSE-2.0.txt,SPDX许可证标识符:Apache-2.0)。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|昨天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

143.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|昨天
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|昨天
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|昨天
语言模型图像Agent