Skywork-R1V

GitHub
3.2k 278 中等 1 次阅读 3天前MIT其他开发框架语言模型
AI 解读 由 AI 自动生成,仅供参考

Skywork-R1V 是由 Skywork AI 开发的一系列先进多模态人工智能模型,专注于视觉与语言的深度推理任务。它不仅能“看懂”图像内容,还能像人类一样进行逻辑推演、代码执行和跨学科研究,有效解决了传统多模态模型在处理复杂图表、科学问题及需要多步推理场景时能力不足的痛点。

该系列特别适合开发者、科研人员以及需要处理高难度视觉分析任务的专业人士使用。无论是构建智能科研助手、自动化数据分析流程,还是探索前沿的具身智能应用,Skywork-R1V 都能提供强大的底层支持。普通用户也可通过集成该模型的服务平台,体验更深度的图像理解与搜索辅助功能。

其技术亮点在于引入了先进的视觉思维链(Visual Chain-of-Thought)机制,并通过强化学习算法显著提升了推理能力。最新发布的 Skywork-R1V4-Lite 版本更是结合了代码执行工具,在保持超快推理速度的同时,实现了卓越的图像理解与深度研究能力。此外,项目团队持续开源了包括 38B 参数在内的多个模型版本及其量化格式(如 AWQ、GGUF),大幅降低了部署门槛,让单卡甚至 CPU 环境下的高效推理成为可能,推动了多模态推理技术的普惠化。

使用场景

某医疗科研团队需要快速从数千张历史病理切片报告(包含显微镜图像与手写诊断备注)中提取关键数据,以构建癌症早期筛查的关联数据库。

没有 Skywork-R1V 时

  • 多模态理解割裂:传统 OCR 工具只能识别文字,无法理解显微镜图像中的细胞形态特征,导致图像信息与文本诊断结论无法自动关联。
  • 复杂推理缺失:面对手写备注中模糊的描述(如“疑似异型增生”),模型缺乏逻辑链(CoT)推理能力,难以判断其对应的临床分级标准,需人工逐条复核。
  • 处理效率低下:研究人员需手动对照图片与文字进行标注,处理单份报告平均耗时 15 分钟,千份数据需数周才能完成清洗。
  • 代码执行受限:无法直接让 AI 编写并运行代码来统计特定形态细胞的分布比例,必须依赖专业数据科学家另行开发脚本。

使用 Skywork-R1V 后

  • 视觉 - 语言深度协同:Skywork-R1V 能同时“看懂”病理图像中的细胞结构并理解旁边的手写注释,自动将图像特征与文本诊断精准对齐。
  • 强化逻辑推理:凭借先进的思维链能力,Skywork-R1V 能像专家一样逐步推导,自动将模糊的手写描述映射到标准的临床分级体系中,准确率大幅提升。
  • 智能体自动化:利用其 Agent 能力,Skywork-R1V 可自主调用代码解释器,实时生成 Python 脚本计算细胞密度并输出统计图表,实现端到端的数据提取。
  • 极速批量处理:部署量化版本后,单卡即可高效推理,千份报告的处理时间从数周缩短至数小时,且无需额外开发定制算法。

Skywork-R1V 通过强大的多模态推理与代码执行能力,将原本繁琐的人工跨模态数据清洗工作转化为全自动化的智能流程,极大释放了科研生产力。

运行环境要求

操作系统
  • 未说明
GPU
  • 开源版本(如 Skywork-R1V3-38B-AWQ)需单张显存≥30GB 的 NVIDIA GPU
  • Skywork-R1V4-Lite 为闭源 API 服务,本地无需 GPU
  • GGUF 量化版支持纯 CPU 推理
内存

未说明(建议根据模型参数量配置充足内存,38B 模型通常建议 64GB+)

依赖
notes1. Skywork-R1V4-Lite 是闭源模型,仅通过 API 调用,无需本地部署环境。 2. 若需运行开源版本(如 R1V3-38B),AWQ 量化版需单卡显存≥30GB,GGUF 版可在 CPU 运行。 3. 本地测试工具需克隆仓库并安装 r1v4 文件夹下的 requirements.txt 依赖。 4. 代码示例展示了如何通过 Python requests 库调用 API 进行图像理解和深度搜索。
python未说明(示例代码使用 python3,通常建议 3.8+)
requests
未说明具体深度学习框架版本(依赖 requirements.txt)
Skywork-R1V hero image

快速开始

Skywork Logo

Skywork-R1V4

欢迎来到 Skywork-R1V 仓库!在这里,您将找到一系列具备强大智能体能力的最先进多模态推理模型。从包含模型权重和推理代码的开源版本,到我们最新的闭源产品,Skywork-R1V 系列在视觉理解、代码执行以及深度研究任务等方面均表现出色。

🔥 最新动态

💥 2025年11月18日:我们发布了 Skywork-R1V4-Lite,这是一款轻量级、超快速的闭源多模态推理模型,通过代码执行工具实现了卓越的图像理解能力。R1V4-Lite 具有极快的推理速度,并可与搜索工具集成,从而支持深度研究功能。现已在 Skywork 平台 上提供,不久也将登陆 OpenRouter——敬请期待!

2025年7月15日:我们发布了 Skywork-R1V3 的量化版本,以实现高效推理:

2025年7月9日:我们发布了 Skywork-R1V3-38B [🤗 Skywork-R1V3-38B],这是 Skywork 系列中最新、最强大的开源多模态推理模型,进一步突破了多模态与跨学科智能的边界。主要通过后训练阶段的强化学习算法,R1V3 显著提升了多模态推理能力,在多个多模态推理基准测试中达到了开源领域的最先进水平(SOTA),例如在 MMMU 上取得了 76.0 的成绩。

2025年4月28日:我们发布了 Skywork R1V2 的 AWQ 量化版本[🤗 Skywork-R1V2-38B-AWQ],支持单卡(显存 30GB 以上)推理。

2025年4月24日:我们发布了 Skywork-R1V2,这是一款先进的开源多模态推理模型,在包括 MMMU、MMMU-Pro、MathVista 和 OlympiadBench 在内的多项多模态推理基准测试中表现出色。[🤗 Skywork-R1V2-38B][📖 R1V2 报告]

2025年4月9日:我们的技术报告目前已在 arXiv 上发布:[Skywork-R1V:开创性的多模态推理与思维链方法]。

2025年3月26日:我们发布了 Skywork R1V 的 AWQ 量化版本[🤗 Skywork-R1V-38B-AWQ],支持单卡(显存 30GB 以上)推理。

2025年3月18日:我们非常高兴地推出 Skywork R1V,这是业界首款开源的多模态推理模型,具备先进的视觉思维链能力,进一步推动了人工智能驱动的视觉理解和逻辑推理的边界!🚀

📊 评估

Skywork-R1V4-Lite 在各类多模态任务中表现出最先进的性能,尤其在感知能力和深度研究方面表现突出。

Skywork-R1V4 与主流多模态模型的对比

基准测试 划分 Skywork-R1V4
30B(A3B)
Qwen3-VL
30B(A3B)
Qwen3-VL
235B(A22B)
Gemini 2.5 Flash Gemini 2.5 Pro
感知能力
HIRbench-4K FSP 91.8 88.5 89.0 81.5 85.5
FCP 73.8 68.5 77.0 74.0 82.3
总体 82.8 78.5 83.0 77.5 83.9
HIRbench-8K FSP 88.8 80.3 83.0 75.8 83.0
FCP 70.8 68.3 77.3 71.8 80.0
总体 79.8 74.2 80.4 73.7 81.5
MME-Real 感知 73.4 70.4 74.3 62.3 73.1
推理 56.4 47.7 52.5 51.0 58.2
总体 71.4 67.7 71.6 60.9 71.3
MME-Real-CN 感知 76.3 72.6 76.0 65.8 74.5
推理 59.4 45.0 53.8 51.3 58.3
总体 70.8 63.7 68.8 61.2 69.3
MME-Real-Lite 感知 63.2 58.0 60.2 50.4 59.9
推理 53.2 46.3 50.7 49.9 55.1
总体 59.3 53.2 56.5 50.2 58.3
V* 属性 90.4 81.7 79.1 77.3 86.8
空间 84.2 82.9 82.9 64.4 68.4
总体 88.0 82.2 80.6 72.3 79.1
TreeBench 总体 48.4 42.7 49.6 45.9 54.6
Visual Probe 困难 42.4 30.1 42.4 28.3 33.9
中等 42.9 35.8 39.1 31.3 35.4
容易 66.7 65.2 65.9 45.3 49.6
深度研究
MMSearch 总体 66.1 18.7 48.0 64.9 71.9
FVQA 总体 67.2 53.3 54.4 60.7 72.0
BrowseComp-VL 总体 38.4 30.0 31.6 40.8 45.4

关键亮点:

  • 🏆 Skywork-R1V4 在大多数感知类基准测试中,于 30B 级别模型中取得 最高性能
  • 🚀 在 HIRbench-4K(91.8)和 HIRbench-8K(88.8)上展现出 出色的 FSP 分数,证明其对高分辨率图像具有卓越的理解能力
  • 🔍 强大的深度研究能力,在 MMSearch(66.1)和 FVQA(67.2)上均表现优异且具有竞争力

🚀 如何使用 Skywork-R1V4-Lite

Skywork-R1V4-Lite 以 API 服务的形式提供。您可以通过 Skywork 平台OpenRouter(即将上线)访问它。

1. 获取 API 访问权限

请访问 Skywork 平台,以获取您的 API 密钥。

2. Python 快速入门

import requests
import base64

def image_to_base64(image_path):
    with open(image_path, "rb") as f:
        image_data = f.read()
        return base64.b64encode(image_data).decode("utf-8")

# API 配置
base_url = "https://api.skyworkmodel.ai"
api_key = "your_api_key_here"

# 准备请求
image_base64 = image_to_base64("path/to/your/image.jpg")
content = [
    {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}},
    {"type": "text", "text": "这张图片里有什么?"}
]

# 调用 API
response = requests.post(
    f"{base_url}/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json"
    },
    json={
        "model": "skywork/r1v4-lite",
        "messages": [{"role": "user", "content": content}],
        "stream": False,
        "enable_search": False  # 设置为 True 以启用深度搜索功能
    }
)

print(response.json()["choices"][0]["message"]["content"])

3. 使用我们的工具套件进行批量测试

我们在 r1v4 文件夹中提供了一个全面的测试工具包,用于批量处理和结果可视化。

克隆并设置

git clone https://github.com/SkyworkAI/Skywork-R1V.git
cd Skywork-R1V/r1v4
pip install -r requirements.txt

准备测试用例

编辑 test_cases.jsonl 文件,添加你的测试用例(每行一个 JSON):

{"image": "./demo_image/demo_1.png", "question": "这张图片里有什么?"}
{"image": "", "question": "这是一道纯文本题目"}

运行批量测试

# 非流式模式(默认)
python3 batch_nonstream.py

# 流式模式
python3 batch_stream.py

# 使用自定义输入输出文件
python3 batch_nonstream.py input.jsonl output.jsonl

# 使用规划模型进行任务规划
python3 batch_planner_nonstream.py

可视化结果

# 启动网页查看器
python3 visual.py

# 然后打开浏览器,输入结果文件路径(例如 result_nonstream.jsonl)

解析结构化响应

from parse_utils import parse_full_response

# 解析响应,提取推理步骤、工具调用和观测结果
parsed = parse_full_response(response_text)

# 访问结构化数据
for round_data in parsed['rounds']:
    print(f"第 {round_data['round_num']} 轮")
    print(f"思考:{round_data['think']}")
    print(f"工具:{round_data['tool_call']['name']}")

4. 功能特性

  • 代码执行:R1V4-Lite 可以编写并执行 Python 代码来完成复杂任务。
  • 深度搜索:启用 enable_search=True 即可集成网络搜索功能。
  • 多轮推理:自动进行多步推理,并结合工具使用。
  • 流式支持:支持实时响应流,提升用户体验。

许可证

本代码仓库采用 MIT 许可证 开放。

✅ 允许商业使用
✅ 允许修改
✅ 允许分发
❌ 不承担任何责任

Skywork-R1V4-Lite 基于 Qwen3-VL-30B-A3B-Instruct 模型,该模型采用 Apache 2.0 许可证。

致谢

我们衷心感谢以下开源项目对我们的工作提供的巨大帮助:

  • MS-SWIFT:一个强大的模型训练与微调框架,极大地促进了我们的模型开发进程。
  • VLMEvalKit:一套全面的视觉语言模型评估工具,使我们能够进行广泛的基准测试。

🔮 未来方向

我们非常期待分享 Skywork-R1V 系列未来的研发愿景:

  • Skywork-R1V4-Pro:我们正在开发一款功能更强大的模型,将在所有基准测试中表现出色。敬请期待即将发布的版本!
  • 强化学习研究:我们正积极探索将强化学习技术应用于多模态推理和智能体能力的提升,不断突破视觉语言 AI 的边界。

❤️杂项

Star History Chart

引用

如果您在研究中使用了 Skywork-R1V,请引用以下文献:

@misc{zhang2025skyworkr1v4agenticmultimodalintelligence,
      title={Skywork-R1V4: 通过图像与深度搜索交织的思维实现智能体式多模态智能}, 
      author={Yifan Zhang 和 Liang Hu 和 Haofeng Sun 和 Peiyu Wang 和 Yichen Wei 和 Shukang Yin 和 Jiangbo Pei 和 Wei Shen 和 Peng Xia 和 Yi Peng 和 Tianyidan Xie 和 Eric Li 和 Yang Liu 和 Xuchen Song 和 Yahui Zhou},
      year={2025},
      eprint={2512.02395},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2512.02395}, 
}
@misc{shen2025skyworkr1v3technicalreport,
      title={Skywork-R1V3 技术报告}, 
      author={Wei Shen 和 Jiangbo Pei 和 Yi Peng 和 Xuchen Song 和 Yang Liu 和 Jian Peng 和 Haofeng Sun 和 Yunzhuo Hao 和 Peiyu Wang 和 Jianhao Zhang 和 Yahui Zhou},
      year={2025},
      eprint={2507.06167},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2507.06167}, 
}
@misc{wang2025skyworkr1v2multimodalhybrid,
      title={Skywork R1V2:用于推理的多模态混合强化学习}, 
      author={Peiyu Wang 和 Yichen Wei 和 Yi Peng 和 Xiaokun Wang 和 Weijie Qiu 和 Wei Shen 和 Tianyidan Xie 和 Jiangbo Pei 和 Jianhao Zhang 和 Yunzhuo Hao 和 Xuchen Song 和 Yang Liu 和 Yahui Zhou},
      year={2025},
      eprint={2504.16656},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2504.16656}, 
}
@misc{peng2025skyworkr1vpioneeringmultimodal,
      title={Skywork R1V:开创性的思维链多模态推理}, 
      author={Yi Peng 和 Peiyu Wang 和 Xiaokun Wang 和 Yichen Wei 和 Jiangbo Pei 和 Weijie Qiu 和 Ai Jian 和 Yunzhuo Hao 和 Jiachun Pan 和 Tianyidan Xie 和 Li Ge 和 Rongxian Zhuang 和 Xuchen Song 和 Yang Liu 和 Yahui Zhou},
      year={2025},
      eprint={2504.05599},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2504.05599}, 
}

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|今天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|昨天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

140.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|3天前
开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|今天
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|昨天
开发框架语言模型