Otter
Otter 是一款基于 OpenFlamingo 架构开源的多模态人工智能模型,旨在提升机器对图像、视频与文本混合输入的理解能力。它通过在 MIMIC-IT 等高质量数据集上进行训练,显著增强了模型遵循复杂指令以及在上下文中快速学习新任务的能力,有效解决了传统多模态模型在细粒度视觉理解和交互灵活性上的不足。
这款工具特别适合 AI 研究人员、开发者以及希望探索多模态大模型应用的技术团队使用。无论是进行学术实验、模型微调,还是构建需要处理高分辨率图像与视频的智能应用,Otter 都提供了坚实的基座。其最新推出的 OtterHD 版本更是一项技术亮点:它基于 Fuyu-8B 改进而来,创新地去除了独立的视觉编码器模块,直接将图像块线性变换后与文本令牌共同处理。这种设计不仅架构更加优雅,还能在不牺牲性能的前提下,实现对高分辨率视觉输入的精细化解读,甚至能识别仅占图像 1% 大小的微小物体及其空间关系。此外,项目方还开源了高效的微调脚本并支持多种主流基准测试,帮助使用者以更低的成本验证和部署自己的多模态解决方案。
使用场景
某电商平台的视觉算法团队正致力于构建一个能自动分析商品短视频并生成详细营销文案的智能系统。
没有 Otter 时
- 细粒度识别困难:传统多模态模型难以捕捉视频中占比极小(如仅占画面 1%)的商品细节或标签信息,导致生成的描述笼统模糊。
- 指令遵循能力弱:模型无法准确理解复杂的自然语言指令(如“请重点描述模特佩戴的配饰材质”),往往输出固定模板式的回答。
- 高分辨率处理瓶颈:处理高清商品视频时需要额外的视觉编码器进行预处理,流程繁琐且显存占用高,推理速度缓慢。
- 上下文学习缺失:面对新的商品类别或营销风格示例,模型无法通过少量样本快速调整输出风格,每次都需要重新微调训练。
使用 Otter 后
- 精准捕捉微小细节:借助 OtterHD 的高分辨率处理能力,模型能直接识别视频中微小的商品纹理和空间关系,生成极具画面感的细节描述。
- 完美执行复杂指令:基于 MIMIC-IT 数据集训练的强指令遵循能力,让 Otter 能精准响应“突出展示特定卖点”等定制化需求,输出灵活多变。
- 架构精简高效:Otter 无需显式的独立视觉编码器,直接将图像块与文本令牌联合处理,大幅降低了高清视频分析的延迟和资源消耗。
- 强大的少样本适应力:利用其卓越的上下文学习能力,只需在提示词中提供几个新风格的文案示例,Otter 即可立即模仿并应用于新商品视频。
Otter 通过突破性的多模态架构,将电商视频内容从“粗略识别”升级为“细粒度理解与定制化创作”,显著提升了自动化营销内容的质量与生产效率。
运行环境要求
- 未说明
需要 NVIDIA GPU,本地运行至少需要 16GB 显存 (提及 'at least 16G GPU mem')
未说明

快速开始
项目致谢:credits.md | 论文:Otter 论文 | OtterHD 论文 | MIMIC-IT 论文
检查点:
免责声明:代码可能尚未经过完美优化和重构,但所有开源代码均已测试并通过运行验证,因为我们也在使用这些代码来支持我们的研究。如果您有任何问题,请随时提交 issue。我们热切期待您的建议和 Pull Request,以进一步提升代码质量。
🦾 更新
[2023-11]: 支持 GPT4V 在 8 个基准上的评估;宣布推出基于 Fuyu-8B 改进的 OtterHD-8B。详情请参阅 OtterHD。
- 🦦 新增了 OtterHD,它是基于 Fuyu-8B 进行多模态微调的模型,旨在无需显式视觉编码器模块的情况下,对高分辨率视觉输入进行细粒度解读。所有图像块都经过线性变换,并与文本标记一起处理。这是一项非常创新且优雅的探索。我们对此深感着迷,并以此为基础开源了 Fuyu-8B 的微调脚本,同时借助 Flash-Attention-2 将训练吞吐量提升了 4–5 倍。欢迎在 OtterHD 中尝试我们的微调脚本。
- 🔍 新增了 MagnifierBench,这是一个专门用于评估模型能否识别极小物体信息(占图像大小的 1%)及其空间关系的评测基准。
- 针对当前领先的 LMM 模型,优化了 预训练 | SFT | RLHF 的流程。
- 模型: Otter | OpenFlamingo | Idefics | Fuyu
- 训练数据集接口: (预训练) MMC4 | LAION2B | CC3M | CC12M, (SFT) MIMIC-IT | M3IT | LLAVAR | LRV | SVIT...
- 我们使用 OpenFlamingo 和 Otter 测试了上述数据集的预训练和指令微调,并用 Idefics 和 Fuyu 测试了指令微调数据集。我们将逐步开源这些训练脚本。
- 基准测试接口: MagnifierBench/MMBench/MM-VET/MathVista/POPE/MME/SicenceQA/SeedBench。只需一键即可运行,详细信息请参阅 Benchmark。
datasets: - name: magnifierbench split: test prompt: Answer with the option's letter from the given choices directly. api_key: [Your API Key] # GPT4 or GPT3.5 to evaluate the answers and ground truth. debug: true # put debug=true will save the model response in log file. - name: mme split: test debug: true - name: mmbench split: test debug: true models: - name: gpt4v api_key: [Your API Key] # to call GPT4V model.- 代码重构,以 通过集成的 YAML 文件组织多组数据集,详情请参阅 管理 MIMIC-IT 格式的数据集。例如:
IMAGE_TEXT: # 组名应为 [IMAGE_TEXT, TEXT_ONLY, IMAGE_TEXT_IN_CONTEXT] LADD: # 数据集名称可任意命名 mimicit_path: azure_storage/json/LA/LADD_instructions.json # 指令 JSON 文件路径 images_path: azure_storage/Parquets/LA.parquet # 图像 Parquet 文件路径 num_samples: -1 # 要使用的样本数量,-1 表示使用全部样本,若未设置则默认为 -1。 M3IT_CAPTIONING: mimicit_path: azure_storage/json/M3IT/captioning/coco/coco_instructions.json images_path: azure_storage/Parquets/coco.parquet num_samples: 20000这是一项重大变更,可能导致旧代码无法运行,请仔细查看相关说明。
[2023-08]
- 新增支持使用 Azure、Anthropic、Palm、Cohere 等模型通过 Syphus 流程进行自指导训练。如需了解使用方法,请修改 此行,替换为您选择的模型,并在环境变量中设置您的 API 密钥。更多信息请参阅 LiteLLM。
[2023-07]: 宣布推出 MIMIC-IT 数据集,用于多模态上下文指令微调。
- 🤗 请在 Huggingface 数据集上查看 MIMIC-IT。
- 🥚 更新了 Eggs 部分,以便下载 MIMIC-IT 数据集。
- 🥃 如果您希望针对特定场景开发 Otter(例如卫星图像或趣味视频),请联系我们。我们致力于支持和协助 Otter 的多样化应用场景。OpenFlamingo 和 Otter 是基于 Flamingo 卓越架构的强大模型,该架构能够接受多张图片、视频或其他模态输入。让我们携手打造更多有趣的模型。
[2023-06]
- 🧨 下载 MIMIC-IT 数据集。有关数据集导航的更多详情,请参阅 MIMIC-IT 数据集 README。
- 🏎️ 本地运行 Otter。您可以在至少配备 16G 显存的 GPU 上本地运行我们的模型,用于图像/视频标注、字幕生成以及有害内容识别等任务。我们修复了一个与视频推理相关的错误,即
frame tensors被错误地解压缩成了不正确的vision_x。请确保正确调整
sys.path.append("../..")以访问otter.modeling_otter,从而启动模型。 - 🤗 请查阅我们的 论文,其中详细介绍了 MIMIC-IT。认识一下 MIMIC-IT——首个包含 280 万条指令的多模态上下文指令微调数据集!从通用场景理解到捕捉细微差异,再到增强 AR 头戴设备的自我中心视角理解,我们的 MIMIC-IT 数据集应有尽有。
🦦 为什么采用上下文指令微调?
大型语言模型(LLMs)凭借其在海量文本数据上的预训练,在众多任务中展现出卓越的零/少样本学习能力。在这些 LLMs 中,GPT-3 以其强大的能力脱颖而出。此外,GPT-3 的变体 InstructGPT 和 ChatGPT 通过指令微调,能够有效理解自然语言指令并完成复杂的现实世界任务。
受 Flamingo 模型上游交错格式预训练的启发,我们推出了 🦦 Otter,这是一款基于 OpenFlamingo(DeepMind Flamingo 的开源版本)的多模态模型。我们采用上下文指令微调的方式,在我们提出的 MI-Modal In-Context Instruction Tuning (MIMIC-IT) 数据集上训练 Otter。Otter 在图像和视频方面均表现出更强的指令遵循和上下文学习能力。
🗄 MIMIC-IT 数据集详情
MIMIC-IT 能够支持以第一视角为核心的视觉助手模型,该模型可以回答诸如“嘿,你觉得我把钥匙落在桌子上了吗?”之类的问题。借助 MIMIC-IT,您可以充分发挥 AI 驱动的视觉助手潜力,将交互式视觉-语言任务提升至全新高度。
我们还推出了 Syphus,这是一个用于生成多语言高质量指令-响应对的自动化流水线。基于 LLaVA 提出的框架,我们利用 ChatGPT 根据视觉内容生成指令-响应对。为确保生成的指令-响应对的质量,我们的流水线在提示中加入了系统消息、视觉标注以及上下文示例,以引导 ChatGPT 的生成。
更多详情,请参阅 MIMIC-IT 数据集。
🤖 Otter 模型详情
Otter 模型旨在支持基于 OpenFlamingo 模型的多模态上下文指令微调,即根据相应的媒体(如与字幕或指令-响应对对应的图像)来调整语言模型。
我们使用包含约 280 万个上下文指令-响应对的 MIMIC-IT 数据集对 Otter 进行了训练,这些数据被组织成一个连贯的模板,以方便执行各种任务。Otter 支持视频输入(帧的排列方式与原始 Flamingo 实现一致)以及作为上下文示例的多张图片输入,这使其成为 首个经过多模态指令微调的模型。
以下模板包含了图像、用户指令和模型生成的响应,并使用 User 和 GPT 角色标签来实现流畅的用户-助手交互:
prompt = f"<image>User: {instruction} GPT:<answer> {response}<endofchunk>"
通过在 MIMIC-IT 数据集上训练 Otter 模型,它能够获得不同的能力,这一点在 LA 和 SD 任务中得到了验证。在 LA 任务上训练后,该模型展现出卓越的场景理解能力、推理能力和多轮对话能力。
# 多轮对话
prompt = f"<image>User: {first_instruction} GPT:<answer> {first_response}<endofchunk>User: {second_instruction} GPT:<answer>"
关于组织视觉-语言上下文示例的概念,我们在 LA-T2T 任务上训练 Otter 模型后,展示了其遵循跨上下文指令的能力。组织后的输入数据格式如下:
# 包含相似指令的多个上下文示例
prompt = f"<image>User:{ict_first_instruction} GPT: <answer>{ict_first_response}<|endofchunk|><image>User:{ict_second_instruction} GPT: <answer>{ict_second_response}<|endofchunk|><image>User:{query_instruction} GPT: <answer>"
更多详情,请参阅我们的 论文 附录中的其他任务部分。
🗂️ 环境配置
- 比较
nvidia-smi和nvcc --version返回的 CUDA 版本,两者必须匹配。或者至少,nvcc --version返回的版本应小于或等于nvidia-smi返回的版本。 - 安装与您的 CUDA 版本匹配的 PyTorch。(例如,CUDA 11.7 对应 PyTorch 2.0.0)。我们已在 CUDA 11.1 + PyTorch 1.10.1 和 CUDA 11.7 + PyTorch 2.0.0 上成功运行此代码。您可以参考 PyTorch 的官方文档,最新版 或 历史版本。
- 您可以通过
conda env create -f environment.yml来安装环境。尤其要确保安装transformers>=4.28.0和accelerate>=0.18.0。
环境配置完成后,您只需几行代码即可将 🦩 Flamingo 模型 / 🦦 Otter 模型作为 🤗 Hugging Face 模型使用!一键操作即可自动下载模型配置和权重。详细信息请参阅 Huggingface Otter/Flamingo。
☄️ 训练
Otter 是基于 OpenFlamingo 训练的。您可能需要使用位于 luodian/OTTER-9B-INIT 或 luodian/OTTER-MPT7B-Init 的转换权重。它们分别由 OpenFlamingo-LLaMA7B-v1 和 OpenFlamingo-MPT7B-v2 转换而来。为了便于 Otter 的下游指令微调,我们为其添加了一个 <answer> 标记。
您也可以使用任何已训练好的 Otter 权重,在我们的基础上继续训练,相关权重可在 Otter Weights 中找到。准备图像、指令和训练 JSON 文件时,可参考 MIMIC-IT。
export PYTHONPATH=.
RUN_NAME="Otter_MPT7B"
GPU=8
WORKERS=$((${GPU}*2))
echo "使用 ${GPU} 张 GPU 卡和 ${WORKERS} 个工作进程"
echo "正在运行 ${RUN_NAME}"
accelerate launch --config_file=./pipeline/accelerate_configs/accelerate_config_zero3.yaml \
--num_processes=${GPU} \
pipeline/train/instruction_following.py \
--pretrained_model_name_or_path=luodian/OTTER-MPT7B-Init \
--model_name=otter \
--instruction_format=simple \
--training_data_yaml=./shared_scripts/Demo_Data.yaml \
--batch_size=8 \
--num_epochs=3 \
--report_to_wandb \
--wandb_entity=ntu-slab \
--external_save_dir=./checkpoints \
--run_name=${RUN_NAME} \
--wandb_project=Otter_MPTV \
--workers=${WORKERS} \
--lr_scheduler=cosine \
--learning_rate=2e-5 \
--warmup_steps_ratio=0.01 \
--save_hf_model \
--max_seq_len=1024 \
📑 引用
如果您觉得本仓库对您有所帮助,请考虑引用以下文献:
@article{li2023otter,
title={Otter: 一种具有上下文指令微调能力的多模态模型},
author={Li, Bo and Zhang, Yuanhan and Chen, Liangyu and Wang, Jinghao and Yang, Jingkang and Liu, Ziwei},
journal={arXiv 预印本 arXiv:2305.03726},
year={2023}
}
@article{li2023mimicit,
title={MIMIC-IT:多模态上下文指令微调},
author={Bo Li and Yuanhan Zhang and Liangyu Chen and Jinghao Wang and Fanyi Pu and Jingkang Yang and Chunyuan Li and Ziwei Liu},
year={2023},
eprint={2306.05425},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
👨🏫 致谢
我们感谢 Jack Hessel 的建议和支持,同时也感谢 OpenFlamingo 团队为开源社区所做的杰出贡献。
向 Flamingo 和 OpenFlamingo 团队致以崇高敬意,感谢他们在这项卓越架构上的辛勤工作。
📝 相关项目
版本历史
v0.3.02023/11/18v0.2.02023/06/24v0.1.02023/04/30常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器