Agentic-ADK
Agentic ADK 是由阿里巴巴国际数字商业集团推出的智能体(Agent)应用开发框架,它融合了 Google ADK 的接口设计与阿里自研 LangEngine 的核心能力。该工具旨在解决复杂 AI 智能体在构建、评估及部署过程中面临的流程繁琐、多模态对齐难及协作控制复杂等痛点,让开发者能更轻松地编排从简单任务到多智能体协同的各类应用。
Agentic ADK 主要面向 AI 应用开发者、算法工程师及技术研究人员。其独特亮点在于深度集成了阿里国际多模态大模型 Ovis,显著提升了视觉与文本信息的融合能力及跨语言逻辑推理水平;同时,基于高性能工作流引擎 SmartEngine 和 RxJava3 响应式编程模型,支持同步、异步、流式及并行等多种执行模式,并原生兼容 A2A 协议。此外,框架还内置了丰富的上下文记忆管理、数百种 API 工具及 MCP 集成网关,提供了包括深度研究、电脑操作及浏览器使用在内的多种最佳实践范例,是构建强大、灵活且可控的智能体应用的理想选择。
使用场景
某跨境电商公司的技术团队正在构建一个能自动分析全球竞品海报、提取促销信息并生成多语种运营报告的智能助手。
没有 Agentic-ADK 时
- 多模态处理割裂:开发团队需分别调用 OCR 接口和语言模型,难以精准识别海报中复杂的多语种表格与图表,导致数据提取错误率高。
- 工作流编排复杂:实现“识别 - 推理 - 报告”的串行逻辑需手写大量异步回调代码,调试困难且无法直观监控中间状态。
- 记忆上下文缺失:Agent 无法在长对话中保留历史分析结果,每次新任务都需重新输入背景,导致重复计算且响应迟缓。
- 跨国部署门槛高:缺乏统一框架整合阿里国际站特有的 Ovis 大模型能力,适配不同语言环境的推理逻辑需反复定制开发。
使用 Agentic-ADK 后
- 深度多模态融合:直接集成 Ovis 大模型,利用其增强的跨语言 OCR 与逻辑推理能力,一键精准提取英、法、西等多语种海报中的结构化促销数据。
- 可视化流程编排:基于节点式工作流引擎,通过配置即可定义同步/异步执行路径,配合可视化调试工具实时查看数据流转,开发效率提升 50% 以上。
- 内置长短期记忆:原生支持 Session 与 Memory 插件,Agent 自动关联历史竞品分析记录,生成报告时能主动对比过往趋势,无需额外编码。
- 开箱即用的全球化:无缝调用阿里国际多模态模型接口,预置多语言理解最佳实践,快速构建出适应全球市场的智能分析应用。
Agentic-ADK 通过深度融合多模态推理与灵活的工作流编排,让复杂的跨国电商智能体开发从“手工拼凑”变为“标准化组装”。
运行环境要求
- 未说明
未说明
未说明

快速开始
关于
Agentic ADK 是阿里巴巴国际 AI 业务推出的一款基于 Google-ADK 和 Ali-LangEngine 的 Agent 应用开发框架。
Agentic ADK 是阿里巴巴国际 AI 业务推出的一款基于 Google-ADK 和 Ali-LangEngine 的 Agent 应用开发框架。它用于开发、构建、评估和部署功能强大、灵活可控的复杂 AI Agent。ADK 致力于让 Agent 开发更加简单易用,使开发者能够更轻松地构建、部署和编排从简单任务到复杂协作的各种 Agent 应用程序。
功能概览
- 基于 Google ADK 接口,强化了流式交互和可视化调试工具等核心执行路径,使开发者能够高效开发 Agent 应用。
- 与阿里巴巴国际多模态大语言模型 Ovis 无缝集成,实现视觉与文本信息的深度对齐与融合。该模型具有高性能和轻量化的特点,为高效开发和部署多模态 Agent 提供以下优势:
- 卓越的逻辑推理能力:通过指令微调和偏好学习相结合,显著提升了模型的思维链(CoT)推理能力,使其能够更好地理解并执行复杂指令。
- 精准的跨语言理解和识别:除了中英文之外,该模型在多语言环境下的文本识别(OCR)能力得到提升,并优化了从表格、图表等复杂视觉元素中提取结构化数据的准确性。
- 灵活的 多 Agent 框架,支持同步、异步、流式和并行等多种执行模式,并自然集成 A2A 协议。
- 结合 Agent 的高性能工作流引擎,基于阿里巴巴 SmartEngine 工作流引擎构建,采用 RxJava3 实现响应式编程模型。它使用基于节点的流程系统来定义 Agent 行为,支持同步、异步及双向通信模式,为构建复杂 AI 应用提供了灵活的基础。
- 提供数百个 API 工具,并引入 MCP 集成网关。
- 包含 DeepResearch/RAG、ComputerUse、BrowserUse、Sandbox 等 Agentic AI 的最佳实践。
- 实现 Agent 对话的上下文扩展,包括 Session、Memory、Artifact 等,并内置短期和长期记忆插件。
- 提供提示词自动化调优以及与安全风险控制相关的 Agent 示例。

框架设计
基于 Google ADK 接口的设计
Agentic ADK 继承了 google-adk 的优秀设计,并支持以下关键特性:
LLM
丰富的大型模型选择。原生兼容 OpenAI、百炼/Qwen、OpenRouter、Claude 等模型/供应商的使用。
| 组件抽象 | 描述 |
|---|---|
| LangEngine | 该组件支持 LangEngine 生态下所有兼容的第三方 Model/WorkSpace 集成到 Agent 系统中,包括 OpenAI、百炼/Qwen、Idealab、OpenRouter 等。 |
| DashScopeLlm | 支持与阿里云百炼上的 OpenAPI 接口集成 |
Agent
高度抽象的 Agent 定义和灵活的 Agent 编排。框架内置了 LLM、顺序、并行、循环等 Agent 定义;支持单 Agent 和多 Agent(MAS)架构设计,便于扩展您的 Agent 设计模式和架构。
| 组件抽象 | 描述 |
|---|---|
| LlmAgent | ADK 中的核心组件,充当应用程序的“思考”部分。它利用大型语言模型(LLM)的强大功能进行推理、理解自然语言、做出决策、生成响应以及与工具交互。 |
| SequentialAgent | 一种按列表中指定顺序执行其子 Agent 的 WorkflowAgent。 |
| LoopAgent | 一种以循环(即迭代)方式执行其子 Agent 的 WorkflowAgent。它会重复运行一组 Agent,直到达到指定的迭代次数或满足终止条件。 |
| ParallelAgent | 一种可以并发执行其子 Agent 的 WorkflowAgent,在子任务可以独立执行时,能够显著加快整个工作流的速度。 |
| 其他高级概念 | CustomAgents: 通过继承 google.adk.agents.BaseAgent,可以实现自定义 Agent 处理流程。 Multi-Agent Systems: 可以将多个不同的 Agent 实例组合成一个多智能体系统(MAS),从而支持构建更复杂的应用程序 |
工具
丰富的工具集合。轻松集成 Function/MCP 以及任何第三方工具。
| 组件抽象 | 描述 |
|---|---|
| Function Tool | FunctionTool: 将函数作为工具,任何方法都可以转换为 Agent 可调用的 Tool。 LongRunningFunctionTool: 专为需要较长时间处理且不会阻塞 Agent 执行的任务设计。 AgentTool: 通过将其他 Agent 编排为工具,可以充分利用它们在系统中的能力。该工具允许当前 Agent 调用另一个 Agent 来执行特定任务,从而有效委派职责。 |
| DashScopeTool | 与阿里云百炼工具应用的集成 |
| MCPTool | ADK 内置的 MCP 工具 |
| GoogleSearchTool | ADK 内置的 Google 搜索工具 |
| GUITaskExecuteTool | ADK 内置的 GUI 任务执行工具 |
回调
灵活的回调机制。在 Agent 执行过程中的多个时间节点提供钩子,便于在 LLM/工具/Agent 调用前后实现自定义逻辑。
参考:https://google.github.io/adk-docs/callbacks
最佳实践:https://google.github.io/adk-docs/callbacks/design-patterns-and-best-practices/
调试与评估
开箱即用的调试和评估能力。无论是在本地还是远程,都提供白屏调试页面,方便快速调试 Agent。
高性能动态工作流引擎集成
基于阿里巴巴的SmartEngine工作流引擎构建,采用RxJava3实现响应式编程模式,使用基于节点的流程系统定义智能体行为,并支持同步、异步及双向通信模式,为构建复杂的人工智能应用提供了灵活的基础。
┌─────────────────────────────────────────────────────────────────────┐
│ 用户应用层 │
├─────────────────────────────────────────────────────────────────────┤
│ 运行器(执行入口) │
├─────────────────────────────────────────────────────────────────────┤
│ 管道处理层 │
│ ┌─────────────┐ ┌────────────────┐ ┌─────────────────────────┐ │
│ │ 智能体 │ │ ... │ │ 自定义处理 │ │
│ │ 执行 │ │ │ │ 管道处理 │ │
│ │ 管道 │ │ │ │ │ │
│ └─────────────┘ └────────────────┘ └─────────────────────────┘ │
├─────────────────────────────────────────────────────────────────────┤
│ 流程引擎层 │
│ ┌─────────────┐ ┌────────────────┐ ┌─────────────────────────┐ │
│ │ 流程画布 │ │ │ │ │ │
│ │ (流程 │ │ 流程节点 │ │ 委托执行器 │ │
│ │ 容器) │ │ │ │ │ │
│ └─────────────┘ └────────────────┘ └─────────────────────────┘ │
├─────────────────────────────────────────────────────────────────────┤
│ AI能力抽象层 │
│ ┌─────────────┐ ┌────────────────┐ ┌─────────────────────────┐ │
│ │ 基础Llm │ │ 基础工具 │ │ 基础条件 │ │
│ │ (LLM模型) │ │ (工具集) │ │ (条件判断) │ │
│ └─────────────┘ └────────────────┘ └─────────────────────────┘ │
├─────────────────────────────────────────────────────────────────────┤
│ 基础设施层 │
│ ┌─────────────┐ ┌────────────────┐ ┌─────────────────────────┐ │
│ │ SmartEngine │ │ RxJava3 │ │ Spring框架 │ │
│ │ (工作流 │ │ (响应式 │ │ (依赖注入 │ │
│ │ 引擎) │ │ 编程 │ │ 框架) │ │
│ │ │ │ 框架) │ │ │ │
│ └─────────────┘ └────────────────┘ └─────────────────────────┘ │
└─────────────────────────────────────────────────────────────────────┘
核心组件
流程引擎组件
- FlowCanvas:流程定义的主要容器,用于构建和部署工作流。
- FlowNode:所有流程节点的基类,定义节点的基本行为。
- 节点类型:
LlmFlowNode:用于与大型语言模型交互。ToolFlowNode:用于执行外部工具。ConditionalContainer:用于条件分支。ParallelFlowNode:用于并行执行。ReferenceFlowNode:用于引用其他流程。
执行组件
- Runner:流程执行的主要入口。
- DelegationExecutor:负责处理委托任务的执行。
- SystemContext:包含执行上下文和配置信息。
- Request/Result:请求和响应的数据结构。
AI能力组件
- BasicLlm接口及其实现(如
DashScopeLlm):定义并实现与大型语言模型的交互。 - LlmRequest/LlmResponse:大型语言模型交互的数据结构。
- BaseTool接口及其实现(如
DashScopeTools):定义并实现外部工具调用。
管道系统
- PipeInterface:管道组件的接口。
- AgentExecutePipe:执行管道的主要实现。
- PipelineUtil:用于管道执行的工具类。
执行模式
该框架支持三种执行模式:
- SYNC(同步模式):顺序执行,等待每个节点完成后再执行下一个。
- ASYNC(异步模式):异步执行,可并行处理多个任务。
- BIDI(双向模式):支持双向通信,可动态接收输入。
使用指南与示例
许可证
本项目采用Apache许可证2.0版授权(https://www.apache.org/licenses/LICENSE-2.0.txt,SPDX许可证标识符:Apache-2.0)。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
