Kimi-VL

1.2k 76 中等 1 次阅读 1周前MIT语言模型图像视频Agent其他

AI 解读由 AI 自动生成，仅供参考

Kimi-VL 是一款高效开源的视觉语言模型，专为多模态推理、长上下文理解及智能体任务打造。它巧妙解决了传统大模型在保持高性能的同时难以兼顾低算力成本的难题，仅需激活 28 亿参数即可在多项基准测试中媲美甚至超越 GPT-4o 等旗舰模型。

这款模型特别适合开发者、研究人员以及需要构建复杂多模态应用的企业用户。无论是处理大学级别的图文视频理解、高精度 OCR 识别，还是执行需要多轮交互的智能体任务（如操作系统自动化），Kimi-VL 都能游刃有余。其独特的技术亮点在于采用了混合专家（MoE）架构与原生分辨率视觉编码器 MoonViT，不仅支持 128K 超长上下文窗口，能精准分析长篇文档与视频，还能直接处理超高分辨率图像而无需压缩失真。

此外，最新推出的 Kimi-VL-Thinking 变体通过强化学习具备了强大的“深度思考”能力，能在减少 token 消耗的同时，显著提升数学推理与复杂逻辑问题的解决准确率，并扩展了对高清视频场景的支持。对于希望在有限资源下部署强大多模态能力的团队而言，Kimi-VL 提供了一个兼具效率与智慧的优质选择。

使用场景

某金融科技团队需要每日自动解析数百页包含复杂图表、公式及长篇幅文字说明的上市公司财报 PDF，并提取关键风险指标生成分析报告。

没有 Kimi-VL 时

长文档理解断裂：传统模型受限于上下文窗口，处理几十页的财报时经常“遗忘”前文信息，导致跨章节的数据关联分析出错。
高清图表识别模糊：面对财报中高分辨率的复杂趋势图或精细表格，普通视觉模型因压缩输入分辨率而丢失细节，无法准确读取微小数值。
复杂推理能力不足：对于涉及多步计算的财务公式推导或隐含逻辑判断，现有工具只能做简单的文字摘录，无法进行深度的数学推理。
人工复核成本高：由于自动化准确率不稳定，分析师必须花费大量时间人工二次核对机器提取的结果，效率提升有限。

使用 Kimi-VL 后

超长上下文精准掌控：借助 Kimi-VL 原生的 128K 上下文窗口，模型能一次性完整消化整本百页财报，精准定位并关联分散在不同章节的风险线索。
原生高清视觉感知：利用 MoonViT 编码器，Kimi-VL 直接处理超高清晰度图像，无损识别报表中微小的数据点和复杂的工程图纸细节。
深度思维链推理：调用 Kimi-VL-Thinking 变体，模型能通过长思维链自主拆解复杂的财务计算逻辑，准确完成从数据提取到趋势预测的多步推理。
端到端自动化闭环：凭借在专业基准测试中的卓越表现，输出结果可直接用于决策支持，将人工复核工作量降低了 90%，真正实现无人值守分析。

Kimi-VL 通过结合超长上下文理解、高清视觉感知与深度推理能力，将复杂的 multimodal 文档分析从“辅助阅读”升级为“自主决策”。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU（隐含，因依赖 flash-attn 和 CUDA），推荐显存 50GB+ 用于全量微调，单卡 LoRA 微调需 50GB VRAM
推理建议使用支持 bfloat16 的显卡并安装 flash-attn 以节省显存

内存

未说明

依赖

notes模型总参数量 16B，激活参数约 3B，支持 128K 上下文窗口。推理时强烈建议安装 flash-attn 并设置 dtype 为 bfloat16 以优化显存和速度。微调支持单卡 LoRA（需 50GB 显存）或多卡 DeepSpeed ZeRO-2。Thinking 版本推荐 Temperature=0.8，Instruct 版本推荐 Temperature=0.2。

python3.10

torch==2.5.1

transformers==4.51.3

flash-attn

Pillow

accelerate

快速开始

KIMI-VL 技术报告

技术报告 |

HuggingFace | 💬与最新版 Kimi-VL（2506）对话

1. 引言

我们推出了 Kimi-VL，这是一款高效的开源专家混合（MoE）视觉语言模型（VLM），具备 先进的多模态推理能力、长上下文理解能力以及强大的智能体功能——同时其语言解码器仅激活了 28亿 参数（Kimi-VL-A3B）。

Kimi-VL 在多个具有挑战性的领域中表现出色：作为一款通用的视觉语言模型，Kimi-VL 在多轮智能体交互任务（如 OSWorld）中表现卓越，取得了与旗舰模型相媲美的最先进成果。此外，它在各类复杂的视觉语言任务中也展现了非凡的能力，包括大学水平的图像和视频理解、光学字符识别（OCR）、数学推理、多图像理解等。

在对比评估中，Kimi-VL 能够有效与 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等前沿高效视觉语言模型竞争，并在多个专业领域超越 GPT-4o。

Kimi-VL 还在处理长上下文和清晰感知方面推动了多模态模型的帕累托前沿：配备 128K 的扩展上下文窗口，Kimi-VL 可以处理长篇且多样化的输入，在 LongVideoBench 上获得 64.5 分，在 MMLongBench-Doc 上获得 35.1 分；其原生分辨率视觉编码器 MoonViT 进一步使其能够看清并理解超高分辨率的视觉输入，在 InfoVQA 上获得 83.2 分，在 ScreenSpot-Pro 上获得 34.5 分，同时在常规视觉输入和一般任务中保持较低的计算成本。

在此基础上，我们推出了一个先进的长思维变体：Kimi-VL-Thinking。该模型通过长链式思维（CoT）监督微调（SFT）和强化学习（RL）训练而成，展现出强大的长时序推理能力。它在 MMMU 上获得 61.7 分，MathVision 上获得 36.8 分，MathVista 上获得 71.3 分，同时保持紧凑的 28亿激活 LLM 参数规模，为高效而强大的多模态思考模型树立了新标杆。

除了原始模型变体外，我们还提供了一个新的 Kimi-VL-A3B-Thinking-2506 变体，具备多项全新或改进的能力：

思维更智能，消耗更少的令牌：2506 版本在多模态推理基准测试中达到了更高的准确率：MathVision 上为 56.9 分（提升 20.1 分），MathVista 上为 80.1 分（提升 8.4 分），MMMU-Pro 上为 46.3 分（提升 3.2 分），MMMU 上为 64.0 分（提升 2.1 分），同时平均减少了 20% 的思考长度。

思维时也能看得更清楚：与之前专注于思考任务的版本不同，2506 版本在一般的视觉感知和理解方面也能达到相同甚至更好的效果，例如在 MMBench-EN-v1.1 上得分为 84.4 分，MMStar 上得分为 70.4 分，RealWorldQA 上得分为 70.0 分，MMVet 上得分为 78.4 分，均优于非思考版本（Kimi-VL-A3B-Instruct）。

应用于视频场景：新的 2506 版本在视频推理和理解方面的表现也有所提升。它在 VideoMMMU 基准上创下了开源模型的新纪录（65.2 分），同时在一般视频理解方面仍保持良好表现（Video-MME 得分为 71.9 分）。

支持更高分辨率：新的 2506 版本支持单张图像 320 万像素（1792x1792），是原始版本的 4 倍。这带来了高分辨率感知和 OS 智能体定位基准测试中的显著提升：V* 基准测试得分为 83.2 分（无需额外工具），ScreenSpot-Pro 得分为 52.8 分，OSWorld-G 得分为 52.5 分（完整拒绝设置）。

2. 架构

该模型采用 MoE 语言模型、原生分辨率视觉编码器（MoonViT）以及 MLP 投影器，如下图所示。

3. 新闻

2025年6月21日：发布 Kimi-VL-A3B-Thinking-2506：技术博客 & 食谱，🤗 Hugging Face
2025年4月15日：vLLM 已支持 Kimi-VL 的部署。详情请参阅 #16387。
2025年4月14日：LLaMA-Factory 已支持 Kimi-VL 的微调。详情请参阅 #7719。

4. 模型变体

🤗 对于常见的多模态感知与理解、OCR、长视频和长文档、视频感知以及 OS 智能体应用，我们推荐使用 Kimi-VL-A3B-Instruct 进行高效推理；与此同时，我们的新型思考版本 Kimi-VL-A3B-Thinking-2506 也在多模态感知、长视频和长文档以及 OS 智能体定位方面表现出色，同时具备更强的多模态推理能力。更多信息请参阅这篇博客。

模型	总参数量	激活参数量	上下文长度	下载链接
🔥Kimi-VL-A3B-Thinking-2506	160亿	30亿	128K	🤗 Hugging Face
Kimi-VL-A3B-Instruct	160亿	30亿	128K	🤗 Hugging Face
Kimi-VL-A3B-Thinking（已弃用）	160亿	30亿	128K	🤗 Hugging Face

[!注意] 推荐参数设置：

对于 思考模型，建议将温度设置为 0.8。

对于 指令模型，建议将温度设置为 0.2。

Hugging Face 演示

🤗 我们在 Hugging Face 空间中提供了模型演示：

与 Kimi-VL-A3B-Thinking-2506 👀🤔🗺️🎬📖🖥️ 模型（集思考、通用理解、解谜、智能体、视频、PDF 于一体）进行对话，请访问聊天网页。

5. 性能

[!注] 请参阅 Kimi-VL-A3B-Thinking-2506 在 Hugging Face 上的性能表现。

作为一款高效的模型，Kimi-VL 能够稳健地处理多样化的任务（细粒度感知、数学、大学水平问题、OCR、智能体等），并支持广泛的输入形式（单张图像、多张图像、视频、长文档等）。

与现有的 10B 级密集型 VLM 以及 DeepSeek-VL2（A4.5B）的简要对比：

凭借强大的长序列思考能力，Kimi-VL-A3B-Thinking（2504 版本）在 MathVision 基准测试上可达到 30B/70B 级前沿开源 VLM 的性能水平：

6. 示例用法

环境搭建

conda create -n kimi-vl python=3.10 -y
conda activate kimi-vl
pip install -r requirements.txt

[!注] 如果遇到显存不足或希望加快推理速度，请使用 pip install flash-attn --no-build-isolation 安装 flash-attn。

使用 Hugging Face Transformers 进行推理

我们介绍如何使用 transformers 库在推理阶段调用我们的模型。建议使用 python=3.10、torch=2.5.1 和 transformers=4.51.3 作为开发环境。

Kimi-VL-A3B-Instruct：

import torch
from PIL import Image
from transformers import AutoModelForCausalLM, AutoProcessor

model_path = "moonshotai/Kimi-VL-A3B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
# 如果已安装 flash-attn，建议设置 torch_dtype=torch.bfloat16 和 attn_implementation="flash_attention_2"
# 以节省显存并加速推理
# model = AutoModelForCausalLM.from_pretrained(
#     model_path,
#     torch_dtype=torch.bfloat16,
#     device_map="auto",
#     trust_remote_code=True,
#     attn_implementation="flash_attention_2"
# )

processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)

image_path = "./figures/demo.png"
image = Image.open(image_path)
messages = [
    {"role": "user", "content": [{"type": "image", "image": image_path}, {"type": "text", "text": "图片中的穹顶建筑是什么？请逐步思考。"}]}
]
text = processor.apply_chat_template(messages, add_generation_prompt=True，return_tensors="pt")
inputs = processor(images=image，text=text，return_tensors="pt"，padding=True，truncation=True).to(model.device)
generated_ids = model.generate(**inputs，max_new_tokens=512)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids，out_ids in zip(inputs.input_ids，generated_ids)
]
response = processor.batch_decode(
    generated_ids_trimmed，skip_special_tokens=True，clean_up_tokenization_spaces=False
)[0]
print(response)

Kimi-VL-A3B-Thinking-2506：

import torch
from PIL import Image
from transformers import AutoModelForCausalLM，AutoProcessor

model_path = "moonshotai/Kimi-VL-A3B-Thinking-2506"
model = AutoModelForCausalLM.from_pretrained(
    model_path，
    torch_dtype="auto，
    device_map="auto，
    trust_remote_code=True，
)
# 如果已安装 flash-attn，建议设置 torch_dtype=torch.bfloat16 和 attn_implementation="flash_attention_2"
# 以节省显存和加速推理
# model = AutoModelForCausalLM.from_pretrained(
#     model_path，
#     torch_dtype=torch.bfloat16，
#     device_map="auto，
#     trust_remote_code=True，
#     attn_implementation="flash_attention_2"
# )
processor = AutoProcessor.from_pretrained(model_path，trust_remote_code=True）

image_paths = ["./figures/demo1.png"，"./figures/demo2.png"]
images = [Image.open(path) for path in image_paths]
messages = [
    {
        "role": "user"，
        "content": [
            {"type": "image"，"image": image_path} for image_path in image_paths
        ] + [{"type": "text"，"text": "请逐步推断这份手稿属于谁，记录了什么内容"}],
    },
]
text = processor.apply_chat_template(messages，add_generation_prompt=True，return_tensors="pt")
inputs = processor(images=images，text=text，return_tensors="pt"，padding=True，truncation=True).to(model.device)
generated_ids = model.generate(**inputs，max_new_tokens=32768，temperature=0.8)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids，out_ids in zip(inputs.input_ids，generated_ids)
]
response = processor.batch_decode(
    generated_ids_trimmed，skip_special_tokens=True，clean_up_tokenization_spaces=False
)[0]
print(response)

7. 微调

Kimi-VL 与开源社区紧密合作，现已通过最新版本的 LLaMA-Factory 提供对高效微调的无缝支持。

该框架支持单 GPU LoRA 微调（需 50GB 显存），以及使用 DeepSpeed ZeRO-2 的多 GPU 全量/LoRA 微调。更多详细配置说明，请参阅此 PR。

8. 部署

使用 vLLM

vLLM 主分支已支持 Kimi-VL 的部署。欢迎使用 vLLM 部署 Kimi-VL。

离线推理

[!注] 关于 离线推理 的更多用法，请参阅 vLLM 离线推理。

from PIL import Image
from transformers import AutoProcessor
from vllm import LLM，SamplingParams

model_path = "moonshotai/Kimi-VL-A3B-Instruct"  # 或 "moonshotai/Kimi-VL-A3B-Thinking-2506"
llm = LLM(
    model_path，
    trust_remote_code=True，
)

processor = AutoProcessor.from_pretrained(model_path，trust_remote_code=True）

image_path = "./figures/demo.png"
image = Image.open(image_path)
messages = [
    {"role": "user"，"content": [{"type": "image"，"image": image_path}，{"type": "text"，"text": "图片中的穹顶建筑是什么？请逐步思考。"}]}
]
text = processor.apply_chat_template(messages，add_generation_prompt=True，return_tensors="pt")
outputs = llm.generate([{"prompt": text，"multi_modal_data": {"image": image}}]，sampling_params = SamplingParams(max_tokens=512))

print("-" * 50)
for o in outputs:
    generated_text = o.outputs[0].text
    print(generated_text)
    print("-" * 50)

OpenAI 兼容服务器

[!注] 关于 OpenAI 兼容服务器 的更多用法，请参阅 vLLM OpenAI 兼容服务器。

使用 vllm serve 命令部署 Kimi-VL：

# 如果需要更长的上下文窗口，可以将 --max-model-len 和 --max-num-batched-tokens 设置为 131072
# 如果需要处理更多的输入图像，可以将 --limit-mm-per-prompt 设置为 image=256 或 512

# kimi-vl-thinking-2506
vllm serve moonshotai/Kimi-VL-A3B-Thinking-2506 --served-model-name kimi-vl-thinking-2506 --trust-remote-code --tensor-parallel-size 1 --max-num-batched-tokens 32768 --max-model-len 32768 --limit-mm-per-prompt image=64

# kimi-vl-instruct
vllm serve moonshotai/Kimi-VL-A3B-Instruct --served-model-name kimi-vl --trust-remote-code --tensor-parallel-size 1 --max-num-batched-tokens 32768 --max-model-len 32768 --limit-mm-per-prompt image=64

调用 API

import base64
from PIL import Image
from io import BytesIO
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="token-abc123",
)

image_path = "./figures/demo.png"
image = Image.open(image_path).convert("RGB")

buffered = BytesIO()
image.save(buffered, format="JPEG")
img_b64_str = base64.b64encode(buffered.getvalue()).decode("utf-8")
base64_image_url = f"data:image/jpeg;base64,{img_b64_str}"

messages = [
    {"role": "user", "content": [{"type": "image_url", "image_url": {"url": base64_image_url}}, {"type": "text", "text": "图片中的穹顶建筑是什么？请逐步思考。"}]}
]

completion = client.chat.completions.create(
  model="kimi-vl-thinking-2506", # 或者 kimi-vl
  messages=messages
)

print(completion.choices[0].message)

9. 引用

@misc{kimiteam2025kimivltechnicalreport,
      title={{Kimi-VL} 技术报告}, 
      author={Kimi 团队 和 Angang Du 和 Bohong Yin 和 Bowei Xing 和 Bowen Qu 和 Bowen Wang 和 Cheng Chen 和 Chenlin Zhang 和 Chenzhuang Du 和 Chu Wei 和 Congcong Wang 和 Dehao Zhang 和 Dikang Du 和 Dongliang Wang 和 Enming Yuan 和 Enzhe Lu 和 Fang Li 和 Flood Sung 和 Guangda Wei 和 Guokun Lai 和 Han Zhu 和 Hao Ding 和 Hao Hu 和 Hao Yang 和 Hao Zhang 和 Haoning Wu 和 Haotian Yao 和 Haoyu Lu 和 Heng Wang 和 Hongcheng Gao 和 Huabin Zheng 和 Jiaming Li 和 Jianlin Su 和 Jianzhou Wang 和 Jiaqi Deng 和 Jiezhong Qiu 和 Jin Xie 和 Jinhong Wang 和 Jingyuan Liu 和 Junjie Yan 和 Kun Ouyang 和 Liang Chen 和 Lin Sui 和 Longhui Yu 和 Mengfan Dong 和 Mengnan Dong 和 Nuo Xu 和 Pengyu Cheng 和 Qizheng Gu 和 Runjie Zhou 和 Shaowei Liu 和 Sihan Cao 和 Tao Yu 和 Tianhui Song 和 Tongtong Bai 和 Wei Song 和 Weiran He 和 Weixiao Huang 和 Weixin Xu 和 Xiaokun Yuan 和 Xingcheng Yao 和 Xingzhe Wu 和 Xinxing Zu 和 Xinyu Zhou 和 Xinyuan Wang 和 Y. Charles 和 Yan Zhong 和 Yang Li 和 Yangyang Hu 和 Yanru Chen 和 Yejie Wang 和 Yibo Liu 和 Yibo Miao 和 Yidao Qin 和 Yimin Chen 和 Yiping Bao 和 Yiqin Wang 和 Yongsheng Kang 和 Yuanxin Liu 和 Yulun Du 和 Yuxin Wu 和 Yuzhi Wang 和 Yuzi Yan 和 Zaida Zhou 和 Zhaowei Li 和 Zhejun Jiang 和 Zheng Zhang 和 Zhilin Yang 和 Zhiqi Huang 和 Zihao Huang 和 Zijia Zhao 和 Ziwei Chen},
      year={2025},
      eprint={2504.07491},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2504.07491}, 
}

Kimi-VL 快速上手指南

Kimi-VL 是一款高效的开源混合专家（MoE）视觉语言模型，具备强大的多模态推理、长上下文理解及智能体能力。其语言解码器仅激活约 2.8B 参数，却能在多项基准测试中媲美旗舰模型。本指南将帮助您快速部署并使用该模型。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐) 或 macOS
Python 版本: 3.10 (官方推荐开发环境)
硬件要求:
- 支持 CUDA 的 NVIDIA GPU (建议使用显存 ≥ 24GB 以运行全精度或大上下文任务)
- 若需加速推理并降低显存占用，强烈建议安装 flash-attn
核心依赖版本参考:
- torch: 2.5.1
- transformers: 4.51.3

2. 安装步骤

2.1 创建虚拟环境

推荐使用 Conda 创建独立的 Python 环境：

conda create -n kimi-vl python=3.10 -y
conda activate kimi-vl

2.2 安装依赖库

克隆项目仓库（如有 requirements.txt）或直接安装必要库。若遇到显存不足或希望加速推理，请优先安装 flash-attn。

安装 Flash Attention (可选但推荐):

pip install flash-attn --no-build-isolation

安装核心依赖:

# 假设已下载源码目录，执行：
pip install -r requirements.txt

# 或者手动安装核心库：
pip install torch==2.5.1 transformers==4.51.3 pillow

注意: 国内用户若下载缓慢，可使用清华源或阿里源加速： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 基本使用

Kimi-VL 提供两种主要变体，请根据场景选择：

Kimi-VL-A3B-Instruct: 适用于通用多模态感知、OCR、长文档/视频理解及智能体任务。推荐温度设置 Temperature = 0.2。
Kimi-VL-A3B-Thinking-2506: 适用于复杂数学推理、深度逻辑思考任务。支持更高分辨率输入。推荐温度设置 Temperature = 0.8。

以下示例基于 transformers 库。

3.1 使用 Instruct 版本 (通用任务)

import torch
from PIL import Image
from transformers import AutoModelForCausalLM, AutoProcessor

model_path = "moonshotai/Kimi-VL-A3B-Instruct"

# 加载模型
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
# 若已安装 flash-attn，建议取消下方注释以节省显存并加速
# model = AutoModelForCausalLM.from_pretrained(
#     model_path,
#     torch_dtype=torch.bfloat16,
#     device_map="auto",
#     trust_remote_code=True,
#     attn_implementation="flash_attention_2"
# )

processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)

# 准备输入
image_path = "./figures/demo.png"
image = Image.open(image_path)
messages = [
    {"role": "user", "content": [{"type": "image", "image": image_path}, {"type": "text", "text": "What is the dome building in the picture? Think step by step."}]}
]

# 处理输入
text = processor.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
inputs = processor(images=image, text=text, return_tensors="pt", padding=True, truncation=True).to(model.device)

# 生成回复
generated_ids = model.generate(**inputs, max_new_tokens=512)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
response = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]

print(response)

3.2 使用 Thinking-2506 版本 (复杂推理/多图)

此版本支持多图输入及更长思维链，适合高难度推理任务。

import torch
from PIL import Image
from transformers import AutoModelForCausalLM, AutoProcessor

model_path = "moonshotai/Kimi-VL-A3B-Thinking-2506"

# 加载模型
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
# 若已安装 flash-attn，建议启用以下配置
# model = AutoModelForCausalLM.from_pretrained(
#     model_path,
#     torch_dtype=torch.bfloat16,
#     device_map="auto",
#     trust_remote_code=True,
#     attn_implementation="flash_attention_2"
# )

processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)

# 准备多图输入
image_paths = ["./figures/demo1.png", "./figures/demo2.png"]
images = [Image.open(path) for path in image_paths]
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image_path} for image_path in image_paths
        ] + [{"type": "text", "text": "Please infer step by step who this manuscript belongs to and what it records"}],
    },
]

# 处理输入
text = processor.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
inputs = processor(images=images, text=text, return_tensors="pt", padding=True, truncation=True).to(model.device)

# 生成回复 (Thinking 模型建议设置 temperature=0.8 且允许更多 token)
generated_ids = model.generate(**inputs, max_new_tokens=32768, temperature=0.8)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
response = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]

print(response)

3.3 微调与部署提示

微调: 官方已支持通过 LLaMA-Factory 进行高效微调（支持单卡 LoRA 及多卡 DeepSpeed ZeRO-2）。
高速部署: 生产环境推荐使用 vLLM 进行部署，已获得官方支持。

常见问题

运行官方演示代码时提示 "kimi_vl" model_type 不受支持，如何解决？

加载模型时显存溢出（CUDA out of memory），即使使用多张高端显卡也无法启动，怎么办？

Kimi-VL-A3B-Thinking 模型在多轮对话中表现异常或输出随机内容，如何解决？

模型出现随机回答、输出无关内容或无限生成无法停止的情况，如何处理？

是否有 Kimi-VL 模型的微调（Finetuning）示例代码？

运行 Demo 时报错，提示 transformers 版本相关错误，该如何修复？

如何使用 vllm 部署 Kimi-VL 模型？遇到无输出或 GPU 利用率低的问题怎么办？

Kimi-VL 模型支持视频推理吗？有没有最佳实践或帧率（fps）建议？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.4k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|2天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像