xLAM

GitHub
612 53 中等 1 次阅读 2天前Apache-2.0Agent语言模型
AI 解读 由 AI 自动生成,仅供参考

xLAM 是 Salesforce 推出的一系列“大型动作模型”(Large Action Models),旨在为 AI 智能体系统注入强大的执行力。与传统大语言模型侧重文本生成不同,xLAM 专注于精准理解和调用外部工具与 API,让 AI 不仅能“思考”,更能高效地“行动”,从而解决复杂任务中规划与执行脱节的难题。

该项目特别适合 AI 开发者、研究人员以及希望构建自动化工作流的企业技术团队使用。无论是开发需要频繁调用数据库、搜索接口或专业软件的行业智能体,还是研究多轮函数调用的学术场景,xLAM 都能提供坚实的底层支持。其核心技术亮点在于卓越的函数调用能力,最新版本 xLAM-2-fc-r 已在权威的伯克利函数调用排行榜(BFCL)上斩获第一。此外,项目还开源了配套的 ActionStudio 框架及专用的 APIGen-MT 数据集,大幅降低了从模型训练到实际部署的门槛,帮助用户轻松打造具备高度自主性的 AI 代理系统。

使用场景

某电商平台的智能客服团队正试图升级系统,使其能自动处理用户复杂的“查询订单并申请退款”等多步操作请求。

没有 xLAM 时

  • 意图识别割裂:传统模型只能回答静态问题,无法理解“先查单再退款”这种需要按顺序执行多个动作的复杂指令。
  • 开发成本高昂:工程师需为每个新业务场景(如改地址、换货)硬编码大量的规则脚本和 API 调用逻辑,维护困难。
  • 错误率高企:面对用户模糊的自然语言描述,系统常因参数提取不准而调用错误的接口,导致操作失败或数据混乱。
  • 多轮交互笨拙:系统缺乏记忆与规划能力,一旦用户中途补充信息,往往需要重新开始整个流程,体验极差。

使用 xLAM 后

  • 原生动作规划:xLAM 作为大型动作模型,能直接将自然语言转化为精确的多步函数调用序列,自动完成“查询 - 判断 - 执行”闭环。
  • 零代码扩展:只需提供新的 API 文档,xLAM 即可通过微调快速学会新技能,无需重写底层业务逻辑代码。
  • 参数精准映射:凭借在 BFCL 榜单领先的函数调用能力,xLAM 能从口语化表达中精准提取结构化参数,大幅降低接口调用错误。
  • 流畅多轮协同:支持复杂的多轮对话状态追踪,即使用户中途修改需求,xLAM 也能动态调整执行计划,无缝继续任务。

xLAM 将原本需要繁琐硬编码的自动化流程,转变为模型原生的智能决策能力,让 AI Agent 真正具备了像人类一样操作软件系统的执行力。

运行环境要求

操作系统
  • 未说明
GPU

运行大模型推理必需 NVIDIA GPU(基于代码示例中的 device_map="auto"和 torch_dtype),具体显存需求取决于所选模型参数量(1B 至 141B 不等),需支持 bfloat16 数据类型

内存

未说明

依赖
notes1. 该工具主要用于研究和模型推理,支持多种参数量模型(从 1B 到 141B),硬件需求随模型大小显著变化。 2. 代码示例显示需使用支持 bfloat16 的 GPU 环境。 3. 模型完全兼容 VLLM、FastChat 和 Transformers 推理框架。 4. 部分数据因内部规定仅部分开源。 5. 提供 GGUF 格式文件供量化部署(针对部分模型)。
python3.9+
torch
transformers
xLAM hero image

快速开始


Python 3.9+ License huggingface discord GitHub star chart

论文 | 模型说明 | 框架 | 安装 | 训练 | 基准测试 | 致谢


🎉🎉🎉 新闻

  • [08-20.2025] 🎉🎉🎉 ActionStudioLATTE(与视觉专家共同思考的学习)均已被 EMNLP 2025 主会场接收!
  • [08-05.2025] 💫 ActionStudio 已更新新功能,改进了训练配置跟踪,并进行了整体代码优化!
  • [05-12.2025] 我们的 NAACL 2025 口头报告xLAM 演示文稿现已发布! 📂 我们还开源了 APIGen-MT-5k,这是一个紧凑而强大的数据集,用于探索多轮函数调用。
  • [04-15.2025] 🏆🏆🏆 xLAM-2-fc-r 在最新的 BFCL 排行榜上获得第一名
  • [04-15.2025]:🚀🚀🚀 ActionStudio 现已开源! 请查看我们的 论文代码以获取完整详情。
  • [04-15.2025]:📢📢📢 APIGen-MT 现已开源! 更多信息请参阅我们的 论文项目网站
  • [11.2024]:添加了与 xLAM 模型交互的 最新示例和分词器信息
  • [09.2024]:如果您有任何反馈,请加入我们的 Discord 社区
  • [09.2024]:请查阅我们的 xLAM 技术报告论文
  • [08.2024]:我们很高兴地宣布推出完整的 xLAM 家族,这是一套大型行动模型!从“小型巨人”到工业级强大力量。这些模型取得了令人瞩目的成绩,在 伯克利函数调用排行榜 上分别位列第 1 和第 6 名。 请查看我们的 Hugging Face 收藏
  • [07.2024]:我们很高兴地宣布推出两款函数调用模型:xLAM-1b-fc-rxLAM-7b-fc-r。这些模型在 伯克利函数调用排行榜 上分别位列第 3 和第 25 名,表现优于许多规模大得多的模型。敬请期待更多强大模型的发布。
  • [06.2024] 查看我们最新的工作 APIGen,这是用于函数调用的最佳开源模型。我们的数据集 xlam-function-calling-60k 目前是 HuggingFace 上排名前三的趋势数据集,在截至 2024 年 7 月 4 日的 173,670 个数据集中脱颖而出。另请参阅 Salesforce CEO 的推特VentureBeat新智元
  • [03.2024] xLAM 模型已发布!您可以将其与 AgentLite 基准测试或其他基准测试一起使用,其性能可与 GPT-4 相媲美!
  • [02.2024] AgentOhana 和 xLAM 的首次发布 论文

:本仓库仅用于 研究目的
与 xLAM 相关的所有数据均因 内部规定部分公开,旨在支持代理研究社区的发展。


由大型语言模型(LLMs)驱动的自主代理近年来备受研究关注。然而,要充分挖掘 LLM 在基于代理的任务中的潜力,仍面临诸多挑战,尤其是由于来自不同来源的异构数据通常具有多轮对话轨迹。

本仓库推出的 xLAM 能够整合来自不同环境的代理轨迹,覆盖广泛场景。它将这些轨迹统一为一致的格式,从而简化通用数据加载器的构建,该加载器专为代理训练而优化。借助数据统一化,我们的训练流程能够在不同数据源之间保持平衡,并在数据划分和模型训练过程中确保各设备间的独立随机性。




模型说明

模型 总参数量 上下文长度 发布日期 类别 下载模型 下载 GGUF 文件
Llama-xLAM-2-70b-fc-r 700亿 128k 2025年3月26日 多轮对话、函数调用 🤗 链接
Llama-xLAM-2-8b-fc-r 80亿 128k 2025年3月26日 多轮对话、函数调用 🤗 链接 🤗 链接
xLAM-2-32b-fc-r 320亿 32k(最大128k)* 2025年3月26日 多轮对话、函数调用 🤗 链接
xLAM-2-3b-fc-r 30亿 32k(最大128k)* 2025年3月26日 多轮对话、函数调用 🤗 链接 🤗 链接
xLAM-2-1b-fc-r 10亿 32k(最大128k)* 2025年3月26日 多轮对话、函数调用 🤗 链接 🤗 链接
xLAM-7b-r 72.4亿 32k 2024年9月5日 通用、函数调用 🤗 链接 --
xLAM-8x7b-r 467亿 32k 2024年9月5日 通用、函数调用 🤗 链接 --
xLAM-8x22b-r 1410亿 64k 2024年9月5日 通用、函数调用 🤗 链接 --
xLAM-1b-fc-r 13.5亿 16k 2024年7月17日 函数调用 🤗 链接 🤗 链接
xLAM-7b-fc-r 69.1亿 4k 2024年7月17日 函数调用 🤗 链接 🤗 链接
xLAM-v0.1-r 467亿 32k 2024年3月18日 通用、函数调用 🤗 链接 --

xLAM 系列在多项任务上表现优异,包括通用任务和函数调用。 在参数量相同的情况下,这些模型经过了广泛的智能体任务和场景的微调,同时保留了原始模型的能力。

📦 模型命名规范

  • xLAM-7b-r:大型行动模型 v1.0 或 v2.0 的通用版本,针对广泛的智能体能力进行了微调。-r 后缀表示这是一个 研究 版本。
  • xLAM-7b-fc-r:专门用于 函数调用 任务的变体,同样标记为 研究 使用。
  • ✅ 所有模型均与 VLLM、FastChat 和基于 Transformers 的推理框架完全兼容。

部署与交互 xLAM 模型

🤗 使用 Transformers 进行推理

以下是使用最新模型的一个示例:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-xLAM-2-3b-fc-r")
model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-xLAM-2-3b-fc-r", torch_dtype=torch.bfloat16, device_map="auto")

# 示例对话与工具调用
messages = [
    {"role": "user", "content": "你好,最近怎么样?"},
    {"role": "assistant", "content": "谢谢!我很好。有什么可以帮您的吗?"},
    {"role": "user", "content": "伦敦现在的天气如何?"},
]

tools = [
    {
        "name": "get_weather",
        "description": "获取某个地点的当前天气",
        "parameters": {
            "type": "object",
            "properties": {
                "location": {"type": "string", "description": "城市和州,例如旧金山,加州"},
                "unit": {"type": "string", "enum": ["摄氏度", "华氏度"], "description": "返回的温度单位"}
            },
            "required": ["location"]
        }
    }
]

print("====== 应用聊天模板后的提示 ======")
print(tokenizer.apply_chat_template(messages, tools=tools, add_generation_prompt=True, tokenize=False))

inputs = tokenizer.apply_chat_template(messages, tools=tools, add_generation_prompt=True, return_dict=True, return_tensors="pt")
input_ids_len = inputs["input_ids"].shape[-1] # 获取输入 token 的长度
inputs = {k: v.to(model.device) for k, v in inputs.items()}
print("====== 模型响应 ======")
outputs = model.generate(**inputs, max_new_tokens=256)
generated_tokens = outputs[:, input_ids_len:] # 取出新生成的 tokens
print(tokenizer.decode(generated_tokens[0], skip_special_tokens=True))

注意: 不同的应用可能需要调整 Temperature 参数。通常,较低的 Temperature 有助于实现确定性的结果。 此外,对于需要严格遵循特定格式或函数调用的任务,明确包含格式化指令是非常重要且必要的。

⚡📈 使用 vLLM 进行推理

xLAM 模型也可以使用 vLLM 高效地进行高吞吐量推理服务。请使用 vllm>=0.6.5,因为较早版本会导致基于 Qwen 的模型性能下降。

设置与服务

  1. 安装所需版本的 vLLM:
pip install "vllm>=0.6.5"
  1. 将工具解析器插件下载到本地路径:
wget https://huggingface.co/Salesforce/xLAM-2-1b-fc-r/raw/main/xlam_tool_call_parser.py
  1. 启动兼容 OpenAI API 的端点:
MODEL_NAME_OR_PATH="Salesforce/xLAM-2-1b-fc-r"
ASSIGNED_MODEL_NAME="xlam-2-1b-fc-r" # vLLM 使用分配的模型名称作为引用
NUM_ASSIGNED_GPUS=1 # 对于 70B 参数的模型需要 4 张 GPU,每张 80GB 显存
PORT=8000

vllm serve $MODEL_NAME_OR_PATH \
  --tensor-parallel-size $NUM_ASSIGNED_GPUS \
  --served-model-name $ASSIGNED_MODEL_NAME \
  --port $PORT \
  --gpu-memory-utilization 0.9 \
  --enable-auto-tool-choice \
  --tool-parser-plugin ./xlam_tool_call_parser.py \
  --tool-call-parser xlam 

注意:请确保已下载工具解析器插件文件,并且在 --tool-parser-plugin 中指定的路径正确指向您本地的文件副本。xLAM 系列模型都使用 相同 的工具调用解析器,因此您只需为所有模型下载一次即可。

使用 OpenAI API 测试

以下是一个最小示例,用于测试已部署端点上的工具使用情况:

import openai
import json

# 配置客户端以使用本地 vLLM 端点
client = openai.OpenAI(
    base_url="http://localhost:8000/v1",  # 默认 vLLM 服务器端口
    api_key="empty"  # 可以为任意字符串
)

# 定义一个工具/函数
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "获取某个地点的当前天气",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {
                        "type": "string",
                        "description": "城市和州,例如旧金山, CA"
                    },
                    "unit": {
                        "type": "string",
                        "enum": ["摄氏度", "华氏度"],
                        "description": "返回温度的单位"
                    }
                },
                "required": ["location"]
            }
        }
    }
]
messages = [
  {"role": "system", "content": "你是一个可以使用工具的帮助助手。"},
  {"role": "user", "content": "旧金山的天气怎么样?"}
]

# 创建聊天完成请求
if tools is None or tools==[]: # 日常对话
  response = client.chat.completions.create(
      model="xlam-2-1b-fc-r",  # 分配的模型名称
      messages=messages
  )
else: # 函数调用
  response = client.chat.completions.create(
      model="xlam-2-1b-fc-r",  # 分配的模型名称
      messages=messages,
      tools=tools,
      tool_choice="auto"
  )

# 打印响应
print("助手的回答:")
print(json.dumps(response.model_dump(), indent=2))

如需了解更多高级配置和部署选项,请参阅 vLLM 文档


🧠 APIGen-MT: 基于模拟人机交互的多轮数据生成代理式流水线

image image


🧠 ActionStudio: 用于大型动作模型的数据生成与训练的轻量级框架



❤️ 更多详情请参阅 ActionStudio.md

📦 安装

🔧 依赖项

从根 xLAM 目录(即 setup.py 所在的位置)安装依赖项:

conda create --name actionstudio python=3.10

bash requirements.sh

🚀 安装 ActionStudio

开发版本(最新):

要使用处于积极开发中的最新代码,请从根 xLAM 目录(即 setup.py 所在的位置)以 可编辑模式 安装 ActionStudio:

pip install -e .

🗂️ 结构

actionstudio/
├── datasets/                             # 开源的“统一轨迹数据集”
├── examples/                             # 使用示例和配置
│   ├── data_configs/                     # 数据混合的 YAML 配置文件
│   ├── deepspeed_configs/                # DeepSpeed 训练配置文件
│   └── trainings/                        # 各种训练方法的 Bash 脚本(“README.md”)
├── src/                                  # 源代码
│   ├── data_conversion/                  # 将轨迹转换为训练数据(“README.md”)
│   └── criticLAM/                        # 批评者大型动作模型的实现(“README.md”)
└── foundation_modeling/                  # 核心建模组件
    ├── data_handlers/
    ├── train/
    ├── trainers/
    └── utils/

🔍 大多数顶级文件夹都包含带有详细说明和解释的 README.md 文件。

⚡ 效率

image

📜 许可证

代码采用 Apache 2.0 许可证,数据集则采用 CC-BY-NC-4.0 许可证。所提供的数据仅用于研究目的。

🛠️ 代码更新历史

💫 2025年8月5日

  • 统一配置跟踪 现在每次运行都会将其完整的训练配置写入一个单独的 JSON 文件中——以唯一的模型 ID 为键——保存在 model_config_files 中,以便于参考和复现。

  • HF ⇄ DeepSpeed 一致性 解决了 Hugging Face 和 DeepSpeed 之间超参数设置的不一致问题,以确保两者完全同步。

  • 学习率调度器调整 优化了默认调度器参数,使预热过程更加平滑,收敛更加稳定。

  • 代码整体清理 简化了模块结构,移除了无效路径,并添加了内联文档,以方便维护。

2025年5月9日

  • 修复了 data_verifier 中的参数错误。参考 #24

2025年4月14日

  • 更新了依赖项版本,以支持最新的模型和技术
  • 添加了自动计算和分配训练步数的功能
  • 启用了训练结束时的自动检查点合并功能。
  • 改进了文档和代码注释

部署和交互 xLAM 模型

⚠️ 注意: 如需使用 xLAM v1.0 模型,请参阅 示例笔记本及分词器信息

xLAM v2.0 模型在 v1.0 的基础上进行了优化,结构更加完善,并采用了标准的对话格式,因此可以直接与 vLLM、Transformers 等主流推理框架兼容——无需任何特殊设置。

🔍 不过,我们仍然建议您查看上述笔记本,以便更好地理解对话格式逻辑和分词器的行为。

💬 将 xLAM 作为 OpenAI 兼容的聊天 API 提供服务

您可以使用以下两种方法之一将 xLAM 模型部署为 OpenAI 兼容的聊天完成 API。

📌 以下示例使用 Salesforce/xLAM-8x7b-r,在 4×A100 (40GB) 的配置上运行。

方法 1:使用 vLLM(推荐)

vLLM 提供高效的推理服务,延迟更低。要使用 vLLM 提供模型服务:

vllm serve Salesforce/xLAM-8x7b-r --host 0.0.0.0 --port 8000 --tensor-parallel-size 4

方法 2:使用 FastChat

FastChat 提供功能更丰富的推理服务。要使用 FastChat 提供服务:

  1. 启动控制器:
python3 -m fastchat.serve.controller --host 0.0.0.0
  1. 启动 OpenAI 兼容的 API 服务器:
python3 -m fastchat.serve.openai_api_server --host 0.0.0.0 --port 8000
  1. 启动模型工作进程:
python3 -m fastchat.serve.vllm_worker \
       --model-names "Salesforce/xLAM-8x7b-r" \
       --model-path Salesforce/xLAM-8x7b-r \
       --host 0.0.0.0 \
       --port 31005 \
       --worker-address http://localhost:31001 \
       --num-gpus 4 \
       --limit-worker-concurrency 64

使用聊天完成 API 处理 xLAM 1.0 系列模型

模型提供服务后,您可以使用以下 xLAM 客户端与其交互,以实现函数调用或其他应用:

from xLAM.client import xLAMChatCompletion, xLAMConfig

# 配置客户端
config = xLAMConfig(base_url="http://localhost:8000/v1/", model="Salesforce/xLAM-8x7b-r")
llm = xLAMChatCompletion.from_config(config)

# 示例对话
messages = [
    {"role": "system", "content": "你是一个乐于助人的助手。"},
    {"role": "user", "content": "纽约现在的天气怎么样?"},
    {"role": "assistant", "content": "要获取纽约的天气信息,我需要调用 get_weather 函数。", "tool_calls": {"name": "get_weather", "arguments": '{"location": "纽约", "unit": "华氏度"}'}},
    {"role": "tool", "name": "get_weather", "content": '{"temperature": 72, "description": "多云"}'},
    {"role": "user", "content": "现在请查询旧金山的天气。"}
]

# 示例函数定义(可选)
tools = [
    {
        "name": "get_weather",
        "description": "获取某个地点的当前天气",
        "parameters": {
            "type": "object",
            "properties": {
                "location": {"type": "string", "描述": "城市和州,例如旧金山、纽约"},
                "unit": {"type": "string", "枚举值为 '摄氏度' 和 '华氏度'", "描述": "返回温度的单位"}
            },
            "required": ["location"]
        }
    },
    {
        "name": "search",
        "description": "在互联网上搜索信息",
        "parameters": {
            "type": "object",
            "properties": {
                "query": {"type": "string", "描述": "搜索关键词,例如 '最新的 AI 新闻'"}
            },
            "required": ["query"]
        }
    },
    {
        "name": "respond",
        "description": "当您准备好回复时,请使用此函数。该函数允许助手根据输入消息和对话上下文生成适当的回复。对于简单问题,生成简洁的回答;对于复杂问题,生成更详细的回答。",
        "parameters": {
            "type": "object",
            "properties": {
                "message": {"type": "string", "描述": "要回复的消息内容"}
            },
            "required": ["message"]
        }
    }
]

response = llm.completion(messages, tools=tools)
print(response)

-->


:trophy: 基准测试(xLAM-2-fc 系列)

伯克利函数调用排行榜(BFCL v3)

image

BFCL 结果
不同模型在 BFCL 排行榜上的性能对比。排名基于综合准确率,即各评估类别的加权平均值。“FC”代表函数调用模式,与通过自定义“提示”提取函数调用的方式相对。

τ-bench 基准测试

Tau-bench 结果
τ-bench 基准测试中至少进行 5 次试验后的成功率(pass@1)。我们的 xLAM-2-70b-fc-r 模型在 τ-bench 上的整体成功率达到 56.2%,显著优于基础 Llama 3.1 70B Instruct 模型(38.2%)以及其他开源模型,如 DeepSeek v3(40.6%)。值得注意的是,我们的最佳模型甚至超越了专有模型,例如 GPT-4o(52.9%),并接近最新模型 Claude 3.5 Sonnet(新)(60.1%)的表现。

Pass^k 曲线
Pass^k 曲线用于衡量给定任务的所有 5 次独立试验均成功的概率,取 τ-retail(左)和 τ-airline(右)领域的所有任务的平均值。数值越高,表明模型的一致性越好。


:trophy: 基准测试(xLAM 1.0 系列)

伯克利函数调用排行榜(BFCL)



BOLAA

网上商店

LLM 名称ZSZSTReaActPlanActPlanReActBOLAA
Llama-2-70B-chat 0.0089 0.01020.42730.28090.39660.4986
Vicuna-33B 0.1527 0.21220.19710.37660.40320.5618
Mixtral-8x7B-Instruct-v0.1 0.4634 0.45920.56380.47380.33390.5342
GPT-3.5-Turbo 0.4851 0.50580.50470.49300.54360.6354
GPT-3.5-Turbo-Instruct 0.3785 0.41950.43770.36040.48510.5811
GPT-4-06130.50020.4783 0.46160.79500.46350.6129
xLAM-v0.1-r0.52010.52680.64860.65730.66110.6556

HotpotQA

LLM 名称ZSZSTReaActPlanActPlanReAct
Mixtral-8x7B-Instruct-v0.1 0.3912 0.39710.37140.31950.3039
GPT-3.5-Turbo 0.4196 0.39370.38680.41820.3960
GPT-4-06130.58010.5709 0.61290.57780.5716
xLAM-v0.1-r0.54920.47760.50200.55830.5030

AgentLite

请注意: AgentLite 提供的所有提示都被视为 xLAM-v0.1-r 的“未见提示”,这意味着该模型并未使用与这些提示相关的数据进行训练。

网上商店

LLM 名称ActReActBOLAA
GPT-3.5-Turbo-16k 0.6158 0.60050.6652
GPT-4-06130.6989 0.67320.7154
xLAM-v0.1-r0.65630.66400.6854

HotpotQA

简单中等困难
LLM 名称F1 分数准确率F1 分数准确率F1 分数准确率
GPT-3.5-Turbo-16k-0613 0.410 0.3500.3300.250.2830.20
GPT-4-06130.6110.47 0.6100.4800.5270.38
xLAM-v0.1-r0.5320.450.5470.460.4550.36

ToolBench

LLM 名称未见指令与相同集合未见工具与已见类别未见工具与未见类别
TooLlama V2 0.4385 0.43000.4350
GPT-3.5-Turbo-0125 0.5000 0.51500.4900
GPT-4-0125-preview0.54620.54500.5050
xLAM-v0.1-r0.50770.56500.5200

MINT-BENCH

许可证

本代码采用 Apache 2.0 许可证。对于基于 DeepSeek 模型 的模型,您需要遵守其中所附 DeepSeek 许可证 中关于使用限制的相关规定。本项目仅用于研究目的。


致谢

我们衷心感谢为我们的论文以及智能体研究社区作出贡献的各位!如果您觉得我们的工作有所帮助,请考虑引用以下文献:

@article{zhang2024xlamfamilylargeaction,
  title={xLAM:赋能 AI 智能体系统的大型动作模型家族},
  author={张建国、兰天、朱明、刘祖鑫、黄泰、科卡内·雪莉、姚伟然、谭俊涛、普拉巴卡尔·阿克沙拉、陈浩林、刘志伟、冯义豪、阿瓦尔高恩卡尔·图丽卡、穆尔蒂·里特什、胡埃里克、陈泽源、徐然、尼布勒斯·胡安·卡洛斯、海因内克·谢尔比、王欢、萨瓦雷斯·西尔维奥、熊才明},
  journal={arXiv 预印本 arXiv:2409.03215},
  year={2024}
}
@article{zhang2025actionstudio,
  title={ActionStudio:用于动作模型数据与训练的轻量级框架},
  author={张建国、黄泰、朱明、刘祖鑫、王世宇、阿瓦尔高恩卡尔·图丽卡、普拉巴卡尔·阿克沙拉、陈浩林、姚伟然、刘志伟等},
  journal={arXiv 预印本 arXiv:2503.22673},
  year={2025}
}
@article{prabhakar2025apigen,
  title={APIGen-MT:基于模拟智能体与人类交互的多轮数据生成代理式流水线},
  author={普拉巴卡尔·阿克沙拉、刘祖鑫、朱明、张建国、阿瓦尔高恩卡尔·图丽卡、王世宇、刘志伟、陈浩林、黄泰等},
  journal={arXiv 预印本 arXiv:2504.03601},
  year={2025}
}
@article{liu2024apigen,
  title={APIGen:用于生成可验证且多样化的函数调用数据集的自动化流水线},
  author={刘祖鑫、黄泰、张建国、朱明、兰天、科卡内·雪莉、谭俊涛、姚伟然、刘志伟、冯义豪等},
  journal={arXiv 预印本 arXiv:2406.18518},
  year={2024}
}
@article{zhang2024agentohana,
  title={AgentOhana:面向高效智能体学习的统一数据与训练流水线设计},
  author={张建国、兰天、穆尔蒂·里特什、刘志伟、姚伟然、谭俊涛、黄泰、杨良伟、冯义豪、刘祖鑫等},
  journal={arXiv 预印本 arXiv:2402.15506},
  year={2024}
}

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|5天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|5天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

150k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|昨天
插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|4天前
语言模型图像Agent
LLM 名称1 步2 步3 步4 步5 步
GPT-4-0613----69.45
Claude-Instant-112.1232.2539.2544.3745.90
xLAM-v0.1-r4.1028.5036.0142.6643.96
Claude-2 26.45 35.4936.0139.7639.93
Lemur-70b-Chat-v1 3.75 26.9635.6737.5437.03
GPT-3.5-Turbo-0613 2.7316.8924.0631.7436.18