Agentic-ADK

665 125 较难 1 次阅读 3天前Apache-2.0开发框架Agent

AI 解读由 AI 自动生成，仅供参考

Agentic ADK 是由阿里巴巴国际数字商业集团推出的智能体（Agent）应用开发框架，它融合了 Google ADK 的接口设计与阿里自研 LangEngine 的核心能力。该工具旨在解决复杂 AI 智能体在构建、评估及部署过程中面临的流程繁琐、多模态对齐难及协作控制复杂等痛点，让开发者能更轻松地编排从简单任务到多智能体协同的各类应用。

Agentic ADK 主要面向 AI 应用开发者、算法工程师及技术研究人员。其独特亮点在于深度集成了阿里国际多模态大模型 Ovis，显著提升了视觉与文本信息的融合能力及跨语言逻辑推理水平；同时，基于高性能工作流引擎 SmartEngine 和 RxJava3 响应式编程模型，支持同步、异步、流式及并行等多种执行模式，并原生兼容 A2A 协议。此外，框架还内置了丰富的上下文记忆管理、数百种 API 工具及 MCP 集成网关，提供了包括深度研究、电脑操作及浏览器使用在内的多种最佳实践范例，是构建强大、灵活且可控的智能体应用的理想选择。

使用场景

某跨境电商公司的技术团队正在构建一个能自动分析全球竞品海报、提取促销信息并生成多语种运营报告的智能助手。

没有 Agentic-ADK 时

多模态处理割裂：开发团队需分别调用 OCR 接口和语言模型，难以精准识别海报中复杂的多语种表格与图表，导致数据提取错误率高。
工作流编排复杂：实现“识别 - 推理 - 报告”的串行逻辑需手写大量异步回调代码，调试困难且无法直观监控中间状态。
记忆上下文缺失：Agent 无法在长对话中保留历史分析结果，每次新任务都需重新输入背景，导致重复计算且响应迟缓。
跨国部署门槛高：缺乏统一框架整合阿里国际站特有的 Ovis 大模型能力，适配不同语言环境的推理逻辑需反复定制开发。

使用 Agentic-ADK 后

深度多模态融合：直接集成 Ovis 大模型，利用其增强的跨语言 OCR 与逻辑推理能力，一键精准提取英、法、西等多语种海报中的结构化促销数据。
可视化流程编排：基于节点式工作流引擎，通过配置即可定义同步/异步执行路径，配合可视化调试工具实时查看数据流转，开发效率提升 50% 以上。
内置长短期记忆：原生支持 Session 与 Memory 插件，Agent 自动关联历史竞品分析记录，生成报告时能主动对比过往趋势，无需额外编码。
开箱即用的全球化：无缝调用阿里国际多模态模型接口，预置多语言理解最佳实践，快速构建出适应全球市场的智能分析应用。

Agentic-ADK 通过深度融合多模态推理与灵活的工作流编排，让复杂的跨国电商智能体开发从“手工拼凑”变为“标准化组装”。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该项目基于 Java 开发（徽章显示 OpenJDK），并集成了阿里巴巴的 SmartEngine 工作流引擎。虽然支持对接多种大模型（如 Ovis、Qwen、OpenAI 等），但 README 中未明确列出运行框架本身所需的特定 GPU 型号、显存大小、Python 版本或具体内存需求。实际资源需求可能取决于所选择部署的大模型规模及并发量。

python未说明

Google-ADK

Ali-LangEngine

RxJava3

OpenJDK (Java)

快速开始

关于

Agentic ADK 是阿里巴巴国际 AI 业务推出的一款基于 Google-ADK 和 Ali-LangEngine 的 Agent 应用开发框架。

中文版说明

Agentic ADK

Agentic ADK 是阿里巴巴国际 AI 业务推出的一款基于 Google-ADK 和 Ali-LangEngine 的 Agent 应用开发框架。它用于开发、构建、评估和部署功能强大、灵活可控的复杂 AI Agent。ADK 致力于让 Agent 开发更加简单易用，使开发者能够更轻松地构建、部署和编排从简单任务到复杂协作的各种 Agent 应用程序。

功能概览

基于 Google ADK 接口，强化了流式交互和可视化调试工具等核心执行路径，使开发者能够高效开发 Agent 应用。
与阿里巴巴国际多模态大语言模型 Ovis 无缝集成，实现视觉与文本信息的深度对齐与融合。该模型具有高性能和轻量化的特点，为高效开发和部署多模态 Agent 提供以下优势：
- 卓越的逻辑推理能力：通过指令微调和偏好学习相结合，显著提升了模型的思维链（CoT）推理能力，使其能够更好地理解并执行复杂指令。
- 精准的跨语言理解和识别：除了中英文之外，该模型在多语言环境下的文本识别（OCR）能力得到提升，并优化了从表格、图表等复杂视觉元素中提取结构化数据的准确性。
灵活的 多 Agent 框架，支持同步、异步、流式和并行等多种执行模式，并自然集成 A2A 协议。
结合 Agent 的高性能工作流引擎，基于阿里巴巴 SmartEngine 工作流引擎构建，采用 RxJava3 实现响应式编程模型。它使用基于节点的流程系统来定义 Agent 行为，支持同步、异步及双向通信模式，为构建复杂 AI 应用提供了灵活的基础。
提供数百个 API 工具，并引入 MCP 集成网关。
包含 DeepResearch/RAG、ComputerUse、BrowserUse、Sandbox 等 Agentic AI 的最佳实践。
实现 Agent 对话的上下文扩展，包括 Session、Memory、Artifact 等，并内置短期和长期记忆插件。
提供提示词自动化调优以及与安全风险控制相关的 Agent 示例。

架构图

框架设计

基于 Google ADK 接口的设计

Agentic ADK 继承了 google-adk 的优秀设计，并支持以下关键特性：

LLM

丰富的大型模型选择。原生兼容 OpenAI、百炼/Qwen、OpenRouter、Claude 等模型/供应商的使用。

组件抽象	描述
LangEngine	该组件支持 LangEngine 生态下所有兼容的第三方 `Model/WorkSpace` 集成到 Agent 系统中，包括 OpenAI、百炼/Qwen、Idealab、OpenRouter 等。
DashScopeLlm	支持与阿里云百炼上的 OpenAPI 接口集成

Agent

高度抽象的 Agent 定义和灵活的 Agent 编排。框架内置了 LLM、顺序、并行、循环等 Agent 定义；支持单 Agent 和多 Agent（MAS）架构设计，便于扩展您的 Agent 设计模式和架构。

组件抽象	描述
LlmAgent	ADK 中的核心组件，充当应用程序的“思考”部分。它利用大型语言模型（LLM）的强大功能进行推理、理解自然语言、做出决策、生成响应以及与工具交互。
SequentialAgent	一种按列表中指定顺序执行其子 Agent 的 WorkflowAgent。
LoopAgent	一种以循环（即迭代）方式执行其子 Agent 的 WorkflowAgent。它会重复运行一组 Agent，直到达到指定的迭代次数或满足终止条件。
ParallelAgent	一种可以并发执行其子 Agent 的 WorkflowAgent，在子任务可以独立执行时，能够显著加快整个工作流的速度。
其他高级概念	CustomAgents: 通过继承 google.adk.agents.BaseAgent，可以实现自定义 Agent 处理流程。 Multi-Agent Systems: 可以将多个不同的 Agent 实例组合成一个多智能体系统（MAS），从而支持构建更复杂的应用程序

工具

丰富的工具集合。轻松集成 Function/MCP 以及任何第三方工具。

组件抽象	描述
Function Tool	FunctionTool: 将函数作为工具，任何方法都可以转换为 Agent 可调用的 Tool。 LongRunningFunctionTool: 专为需要较长时间处理且不会阻塞 Agent 执行的任务设计。 AgentTool: 通过将其他 Agent 编排为工具，可以充分利用它们在系统中的能力。该工具允许当前 Agent 调用另一个 Agent 来执行特定任务，从而有效委派职责。
DashScopeTool	与阿里云百炼工具应用的集成
MCPTool	ADK 内置的 MCP 工具
GoogleSearchTool	ADK 内置的 Google 搜索工具
GUITaskExecuteTool	ADK 内置的 GUI 任务执行工具

回调

灵活的回调机制。在 Agent 执行过程中的多个时间节点提供钩子，便于在 LLM/工具/Agent 调用前后实现自定义逻辑。

参考：https://google.github.io/adk-docs/callbacks

最佳实践：https://google.github.io/adk-docs/callbacks/design-patterns-and-best-practices/

调试与评估

开箱即用的调试和评估能力。无论是在本地还是远程，都提供白屏调试页面，方便快速调试 Agent。

高性能动态工作流引擎集成

基于阿里巴巴的SmartEngine工作流引擎构建，采用RxJava3实现响应式编程模式，使用基于节点的流程系统定义智能体行为，并支持同步、异步及双向通信模式，为构建复杂的人工智能应用提供了灵活的基础。

┌─────────────────────────────────────────────────────────────────────┐
│                          用户应用层                             │
├─────────────────────────────────────────────────────────────────────┤
│                       运行器（执行入口）                         │
├─────────────────────────────────────────────────────────────────────┤
│                    管道处理层                                   │
│   ┌─────────────┐  ┌────────────────┐  ┌─────────────────────────┐  │
│   │ 智能体      │  │  ...           │  │ 自定义处理              │  │
│   │ 执行        │  │                │  │ 管道处理                │  │
│   │   管道      │  │                │  │                         │  │
│   └─────────────┘  └────────────────┘  └─────────────────────────┘  │
├─────────────────────────────────────────────────────────────────────┤
│                    流程引擎层                                 │
│   ┌─────────────┐  ┌────────────────┐  ┌─────────────────────────┐  │
│   │ 流程画布    │  │                │  │                         │  │
│   │ (流程       │  │    流程节点    │  │  委托执行器             │  │
│   │ 容器)       │  │                │  │                         │  │
│   └─────────────┘  └────────────────┘  └─────────────────────────┘  │
├─────────────────────────────────────────────────────────────────────┤
│                    AI能力抽象层                               │
│   ┌─────────────┐  ┌────────────────┐  ┌─────────────────────────┐  │
│   │ 基础Llm     │  │    基础工具    │  │        基础条件        │  │
│   │ (LLM模型)   │  │   (工具集)     │  │  (条件判断)            │  │
│   └─────────────┘  └────────────────┘  └─────────────────────────┘  │
├─────────────────────────────────────────────────────────────────────┤
│                    基础设施层                                 │
│   ┌─────────────┐  ┌────────────────┐  ┌─────────────────────────┐  │
│   │ SmartEngine │  │   RxJava3      │  │  Spring框架           │  │
│   │ (工作流   │  │ (响应式      │  │  (依赖注入              │  │
│   │ 引擎)       │  │ 编程          │  │  框架)                 │  │
│   │             │  │ 框架)         │  │                         │  │
│   └─────────────┘  └────────────────┘  └─────────────────────────┘  │
└─────────────────────────────────────────────────────────────────────┘

核心组件

流程引擎组件

FlowCanvas：流程定义的主要容器，用于构建和部署工作流。
FlowNode：所有流程节点的基类，定义节点的基本行为。
节点类型：
- LlmFlowNode：用于与大型语言模型交互。
- ToolFlowNode：用于执行外部工具。
- ConditionalContainer：用于条件分支。
- ParallelFlowNode：用于并行执行。
- ReferenceFlowNode：用于引用其他流程。

执行组件

Runner：流程执行的主要入口。
DelegationExecutor：负责处理委托任务的执行。
SystemContext：包含执行上下文和配置信息。
Request/Result：请求和响应的数据结构。

AI能力组件

BasicLlm接口及其实现（如DashScopeLlm）：定义并实现与大型语言模型的交互。
LlmRequest/LlmResponse：大型语言模型交互的数据结构。
BaseTool接口及其实现（如DashScopeTools）：定义并实现外部工具调用。

管道系统

PipeInterface：管道组件的接口。
AgentExecutePipe：执行管道的主要实现。
PipelineUtil：用于管道执行的工具类。

执行模式

该框架支持三种执行模式：

SYNC（同步模式）：顺序执行，等待每个节点完成后再执行下一个。
ASYNC（异步模式）：异步执行，可并行处理多个任务。
BIDI（双向模式）：支持双向通信，可动态接收输入。

使用指南与示例

详细使用指南（Java）

DeepSearchAgent代码示例（Java）

许可证

本项目采用Apache许可证2.0版授权（https://www.apache.org/licenses/LICENSE-2.0.txt，SPDX许可证标识符：Apache-2.0）。

Agentic-ADK 快速上手指南

Agentic-ADK 是由阿里巴巴国际 AI 业务推出的智能体（Agent）应用开发框架。它基于 Google-ADK 和阿里 LangEngine 构建，旨在简化复杂 AI Agent 的开发、编排、评估与部署，并深度集成了阿里通义千问（Qwen）及多模态大模型 Ovis。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows (WSL2 推荐)
Java 版本：JDK 17 或更高版本 (基于 OpenJDK)
构建工具：Maven 3.8+ 或 Gradle 8+
依赖管理：建议配置阿里云 Maven 镜像以加速依赖下载

配置阿里云 Maven 镜像 (~/.m2/settings.xml)：

<mirrors>
  <mirror>
    <id>aliyunmaven</id>
    <mirrorOf>*</mirrorOf>
    <name>Aliyun Public</name>
    <url>https://maven.aliyun.com/repository/public</url>
  </mirror>
</mirrors>

安装步骤

您可以通过克隆仓库并构建项目来使用 Agentic-ADK。

克隆项目仓库

git clone https://github.com/AIDC-AI/Agentic-ADK.git
cd Agentic-ADK

构建项目 使用 Maven 进行编译和打包（跳过测试可加 -DskipTests）：
```
mvn clean install -DskipTests
```
配置 API Key 在使用前，需配置大模型服务提供商的 API Key（如阿里云 DashScope 或 OpenAI）。可以通过环境变量或配置文件设置：
```
export DASHSCOPE_API_KEY="your_dashscope_api_key"
# 或者
export OPENAI_API_KEY="your_openai_api_key"
```

基本使用

Agentic-ADK 兼容 Google ADK 接口，支持快速定义 LLM Agent、工具（Tools）及工作流。以下是一个最简单的单 Agent 对话示例。

1. 创建简单的 LLM Agent

创建一个 Java 类，定义一个具备基础对话能力的 Agent：

import com.google.adk.agents.LlmAgent;
import com.google.adk.models.BaseLlm;
import com.google.adk.runners.Runner;
import com.google.adk.sessions.InMemorySessionService;
import com.google.adk.events.Event;
import reactor.core.publisher.Flux;

public class QuickStart {
    public static void main(String[] args) {
        // 1. 定义底层大模型 (此处以阿里云百炼/Qwen 为例)
        // 需确保已引入 langengine-dashscope 依赖并配置好 API Key
        BaseLlm llm = new DashScopeLlm.Builder()
                .modelName("qwen-max") 
                .build();

        // 2. 构建 LlmAgent
        LlmAgent agent = new LlmAgent.Builder()
                .name("assistant")
                .model(llm)
                .instruction("你是一个乐于助人的 AI 助手，请用中文回答用户问题。")
                .build();

        // 3. 初始化运行器
        Runner runner = new Runner.Builder()
                .agent(agent)
                .sessionService(new InMemorySessionService())
                .build();

        // 4. 执行流式对话
        String sessionId = "session_001";
        String userId = "user_001";
        String userQuery = "介绍一下 Agentic-ADK 的主要特点。";

        System.out.println("User: " + userQuery);
        
        // 获取流式响应
        Flux<Event> events = runner.runAsync(userId, sessionId, userQuery);
        
        events.subscribe(event -> {
            if (event.isFinalResponse()) {
                System.out.println("Agent: " + event.getFinalResponse().getContent());
            }
        });
    }
}

2. 集成工具 (Function Tool)

让 Agent 具备调用本地方法的能力：

import com.google.adk.tools.FunctionTool;

// 定义一个普通方法
public static String getWeather(String city) {
    return "目前 " + city + " 的天气是晴朗，气温 25 度。";
}

// 将方法注册为工具
FunctionTool weatherTool = FunctionTool.create(QuickStart::getWeather);

// 绑定到 Agent
LlmAgent agentWithTools = new LlmAgent.Builder()
        .name("weather_bot")
        .model(llm)
        .instruction("你是一个天气查询助手。")
        .tools(List.of(weatherTool)) // 添加工具
        .build();

3. 启动调试界面

Agentic-ADK 提供了开箱即用的可视化调试页面。运行包含 Runner 的应用后，通常可通过访问本地端口（具体端口视配置而定，默认常为 http://localhost:8080 或在控制台输出地址）来查看 Agent 的执行轨迹、日志及进行交互式调试。

注：更多高级用法（如多 Agent 编排、工作流引擎集成、RAG 实践等）请参考官方文档及示例代码库。

常见问题

运行 Demo 时提示缺少 taobao.tddl:tddl-client 等依赖包，且在 Maven 中央仓库找不到，如何解决？

该项目与 Spring AI Alibaba 有何区别？为什么优先开发 MCP Client 而不是 Server？

项目是否支持 JDK 1.8？与其他框架（如 Spring AI, LangChain4j）相比有什么优势？

官方是否会发布 Maven 中央仓库包？如果不会，如何自行解决依赖问题？

项目目前是否还在维护？负责人是否有变动？

如何加入项目的社区交流群？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent