Macaw-LLM

1.6k 131 较难 1 次阅读 2周前Apache-2.0开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

Macaw-LLM 是一款前沿的开源多模态大语言模型，旨在打破文本、图像、视频和音频之间的界限，实现真正的“全能”理解。它巧妙地将 CLIP（视觉）、Whisper（听觉）与 LLaMA（语言）三大顶尖模型融为一体，让 AI 能够像人类一样同时处理看、听、读多种信息流，解决了传统模型难以高效整合异构数据、跨模态交互能力不足的痛点。

对于希望探索多模态融合技术的研究人员和开发者而言，Macaw-LLM 提供了极佳的实验平台。其核心亮点在于采用了“简单快速的对齐策略”，能将不同模态的数据高效映射到大语言模型的嵌入空间，并通过“单阶段指令微调”简化了复杂的训练流程。这种设计不仅大幅降低了多模态模型的开发门槛，还显著提升了推理效率。无论是需要构建智能客服、多媒体内容分析系统，还是致力于下一代通用人工智能研究的团队，都能利用 Macaw-LLM 快速验证想法，构建出能看懂图表、听懂语音并流畅对话的智能应用。

使用场景

某新媒体运营团队需要每日处理大量包含视频采访、背景音效和图文素材的原始资料，以快速生成多平台分发内容。

没有 Macaw-LLM 时

流程割裂效率低：团队成员需分别使用转录工具提取音频、CV 模型分析画面、再人工将文本输入大模型，跨工具切换耗时极长。
多模态语境丢失：单独处理音频或视频时，模型无法结合画面中的表情动作或背景噪音来理解说话人的真实情绪与意图。
对齐成本高昂：将不同来源的文本、图像特征强行拼凑给大模型时，常出现“图文不符”或逻辑断层，需人工反复校对修正。
响应速度滞后：从原始素材到最终文案的完整链路往往需要数小时，难以应对突发热点事件的即时报道需求。

使用 Macaw-LLM 后

一站式多模态输入：直接上传包含视频、音频和参考图的原始包，Macaw-LLM 基于 CLIP、Whisper 和 LLaMA 的架构自动同步解析所有模态数据。
深度语义融合：模型能同时“看”懂视频画面、“听”清背景音与对话，精准捕捉讽刺语气或紧急情境，生成的文案情感色彩更丰富准确。
原生对齐免调试：凭借简单的快速对齐策略，Macaw-LLM 内部自动完成多模态特征与大语言模型的嵌入对齐，输出内容逻辑连贯，无需人工二次拼接。
实时内容产出：单阶段指令微调让推理速度大幅提升，几分钟内即可从复杂素材中提炼出高质量的新闻稿或短视频脚本。

Macaw-LLM 通过原生整合图、文、音、视频能力，将繁琐的多模态数据处理流水线简化为一次高效的智能交互，彻底重塑了内容创作的生产力。

运行环境要求

操作系统

Linux

GPU

需要 NVIDIA GPU (需安装 apex 和 CUDA)，具体型号和显存未说明

内存

未说明

依赖

notes1. 安装步骤明确包含 'yum install ffmpeg'，表明主要支持基于 RPM 的 Linux 发行版（如 CentOS/RHEL）。2. 需要手动克隆并编译安装 NVIDIA apex 库。3. 模型基于 CLIP、Whisper 和 LLaMA/Vicuna/Bloom 构建。4. 运行前需自行下载并预处理多模态数据集（文本、图像、视频）。

python3.8+

requirements.txt 中定义的依赖

ffmpeg

apex

快速开始

Macaw-LLM：融合图像、音频、视频与文本的多模态语言建模

¹ ² 吕晨阳, ³ 吴明浩, ¹ ^* 王龙跃, ¹ 黄欣婷,

¹ 刘炳帅, ¹ 杜泽峰, ¹ 史书铭, ¹ 涂兆鹏

¹ 腾讯AI实验室, ² 都柏林城市大学, ³ 莫纳什大学

^*王龙跃为通讯作者：vinnlywang@tencent.com

Macaw-LLM是一项开创性的探索性工作，它基于CLIP、Whisper和LLaMA的基础，通过无缝整合图像🖼️、视频📹、音频🎵和文本📝数据，率先实现了多模态语言建模。

📰 论文 :building_construction: 模型（通过Dropbox） :building_construction: 模型（通过微云） :card_file_box: 数据集 :bricks: 代码 :monocle_face: 视频 :technologist: 演示

简介

近年来，语言建模领域取得了显著进展。然而，如何有效整合图像、视频、音频和文本等多种模态信息，仍然是一个极具挑战性的课题。Macaw-LLM正是这样一款模型，它将用于处理视觉、听觉和文本信息的最先进模型——CLIP、Whisper和LLaMA——有机地结合在一起。

关键特性 🔑

Macaw-LLM具有以下独特优势：

简单快速的对齐：Macaw-LLM通过简单高效的对齐方式，将多模态数据无缝融入LLM的嵌入空间。这一高效流程确保了不同模态数据能够迅速适配。
单阶段指令微调：我们的模型采用单阶段指令微调机制，简化了适配流程，提升了学习效率。
全新多模态指令数据集：我们构建了一个涵盖多种指令任务的新多模态指令数据集，充分利用了图像和视频模态，为后续多模态LLM的研究奠定了基础。

架构

Macaw-LLM由三个主要组件构成：

CLIP：负责编码图像和视频帧。
Whisper：负责编码音频数据。
LLM（LLaMA/Vicuna/Bloom）：用于编码指令并生成响应的语言模型。

通过这些模型的协同工作，Macaw-LLM能够高效地处理和分析多模态数据。

对齐策略

我们提出的创新对齐策略，能够更快速地实现多模态特征与文本特征之间的映射。具体步骤如下：

使用CLIP和Whisper分别对多模态特征进行编码。
将编码后的特征输入到注意力机制中，其中多模态特征作为查询，LLaMA的嵌入矩阵作为键和值。
将注意力机制的输出注入到LLaMA的输入序列中（位于指令标记之前），从而以最少的额外参数完成对齐过程。

全新多模态指令数据集 🆕

在本项目中，我们利用GPT-3.5-Turbo，以图像或视频字幕作为提示，生成了一套数据集。数据集的来源包括MS COCO数据集中的图像字幕，以及Charades和AVSD数据集中的视频字幕。最终，我们共收集了约69,000个基于COCO图像字幕的样本，以及50,000个基于Charades和AVSD视频字幕的样本。目前我们专注于单轮对话，但未来计划扩展到多轮对话及更多样化的多模态内容，以进一步丰富数据集，并提升语言模型（LLMs）的微调效果。

安装

安装Macaw-LLM，请按照以下步骤操作：

# 克隆仓库
git clone https://github.com/lyuchenyang/Macaw-LLM.git

# 进入Macaw-LLM目录
cd Macaw-LLM

# 安装所需依赖
pip install -r requirements.txt

# 安装ffmpeg
yum install ffmpeg -y

# 安装apex
git clone https://github.com/NVIDIA/apex.git
cd apex
python setup.py install
cd ..

使用方法 🚀

下载数据集：
- 文本数据：stanford_alpaca/alpaca_data.json
- 图像数据：COCO 数据集 VQA 数据集
- 视频数据：Charades 和 Video Dialog
- 图像指令数据：Macaw-LLM 图像指令数据集
- 视频指令数据：Macaw-LLM 视频指令数据集
数据集预处理：
- 将三种模态的数据分别放入指定文件夹中：data/text/、data/image/、data/video/
- 从视频中提取帧和音频：
```
python preprocess_data.py
```
- 将监督数据转换为数据集：
```
python preprocess_data_supervised.py
```
- 将无监督数据转换为数据集：
```
python preprocess_data_unsupervised.py
```
训练：
- 执行训练脚本（可在脚本内指定训练参数）：
```
./train.sh
```
推理：
- 执行推理脚本（可在脚本内提供自定义输入）：
```
./inference.sh
```

示例

我们展示了几个示例，突显了我们的 Macaw-LLM 在理解和执行多模态指令方面的出色能力。这些示例展示了我们的系统在理解图像和视频并据此生成响应方面的多模态能力。它们表明，我们的系统能够理解视觉内容，并在自然语言对话中生成高质量、流畅的回应。对于关于图像的各种问题，我们的系统都能给出上下文相关且信息丰富的答案，这充分证明了它能够自然流畅地交流视觉内容。

未来工作与贡献 🚀

尽管我们的模型仍处于早期阶段，但我们相信，Macaw-LLM 为多模态语言建模领域的未来研究开辟了道路。整合多种数据模态具有巨大的潜力，可以推动人工智能的边界，并加深我们对复杂现实场景的理解。通过推出 Macaw-LLM，我们希望激发这一激动人心的研究领域中的进一步探索和创新。

我们欢迎社区的贡献，以改进和扩展 Macaw-LLM 的能力。🤝

待办事项 👨‍💻

评估： 我们展示了一些示例，说明了 Macaw-LLM 的多模态能力。然而，我们也意识到，这些努力可能不足以准确全面地展示模型的能力。我们计划对系统进行广泛的评估，以检验其性能。
更多语言模型： 我们计划通过引入其他语言模型，如 Dolly、BLOOM、T-5 等，来扩展 Macaw-LLM。这将使多模态数据的处理和理解更加 robust 和 versatile。
多语言支持： 我们的下一步是支持多种语言，朝着真正的多模态、多语言语言模型迈进。我们相信，这将显著拓宽 Macaw-LLM 的应用范围，并增强其对多样化全球语境的理解。

致谢 🙏

我们衷心感谢以下开源项目对 Macaw-LLM 的宝贵贡献：

Stanford Alpaca 提供了我们在实验中使用的 Alpaca 数据集。
Parrot 提供了 LLaMA 训练的实用实现。
CLIP 提供了强大的图像和视频编码模型。
Whisper 提供了强大的音频编码模型。
LLaMA 提供了功能强大的 LLM。

我们还要感谢这些项目的开发者和维护者，感谢他们致力于将项目开源并使其向社区开放。

引用

@article{lyu2023macaw,
  title={Macaw-LLM: 多模态语言建模——融合图像、音频、视频与文本},
  author={Lyu, Chenyang and Wu, Minghao and Wang, Longyue and Huang, Xinting and Liu, Bingshuai and Du, Zefeng and Shi, Shuming and Tu, Zhaopeng},
  journal={arXiv 预印本 arXiv:2306.09093},
  year={2023}
}

Macaw-LLM 快速上手指南

Macaw-LLM 是一个探索性的多模态语言模型，基于 CLIP、Whisper 和 LLaMA 构建，能够无缝整合图像、视频、音频和文本数据。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐)
Python: 3.8 或更高版本
GPU: 支持 CUDA 的 NVIDIA 显卡（用于加速训练和推理）
前置依赖:
- git: 用于克隆代码库
- ffmpeg: 用于处理视频和音频数据
- pip: Python 包管理工具

安装步骤

请依次执行以下命令来完成环境搭建：

# 1. 克隆仓库
git clone https://github.com/lyuchenyang/Macaw-LLM.git

# 2. 进入项目目录
cd Macaw-LLM

# 3. 安装 Python 依赖包
pip install -r requirements.txt

# 4. 安装 ffmpeg (以 CentOS/Yum 为例，Ubuntu 请使用 apt-get install ffmpeg)
yum install ffmpeg -y

# 5. 安装 Apex (用于混合精度训练)
git clone https://github.com/NVIDIA/apex.git
cd apex
python setup.py install
cd ..

注意：如果在国内网络环境下安装 requirements.txt 或克隆仓库较慢，建议配置 pip 国内镜像源（如清华源、阿里源）或使用 Git 代理加速。

基本使用

1. 数据准备

在使用模型前，需下载并预处理数据集。将不同模态的数据放置于指定文件夹：

文本数据 -> data/text/
图像数据 -> data/image/
视频数据 -> data/video/

执行以下脚本进行数据预处理（提取视频帧、音频及格式转换）：

# 提取视频帧和音频
python preprocess_data.py

# 转换监督学习数据
python preprocess_data_supervised.py

# 转换无监督数据
python preprocess_data_unsupervised.py

数据集下载参考：

图像指令数据：Macaw-LLM image instruction dataset
视频指令数据：Macaw-LLM video instruction dataset

2. 模型训练

配置好 train.sh 中的参数后，运行以下命令启动训练：

./train.sh

3. 模型推理

训练完成后，您可以修改 inference.sh 中的输入内容，然后运行以下命令进行测试：

./inference.sh

该模型支持针对图像、视频内容的自然语言问答，能够生成流畅且符合上下文的回复。

常见问题

加载预训练模型进行推理时遇到错误或结果不符，需要注意什么？

项目缺少 LICENSE 文件，目前的使用许可是什么？

项目需要下载哪些具体的数据集文件？

为什么 AVSD 的预处理脚本中没有基于输入文本长度的过滤步骤？

预处理过程中提取的音频和视频帧是否被直接存储在张量数据集中？

脚本中的一些函数（如 preprocess_vqa2_to_val_dataset）未被调用，是废弃了吗？

运行该项目至少需要多少 GPU 显存？两张 3090 显卡可以运行吗？

运行推理时提示缺少 'data/all_visual_names.json' 文件，如何获取？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent