[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-SkyworkAI--Skywork-R1V":3,"tool-SkyworkAI--Skywork-R1V":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",141543,2,"2026-04-06T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":107,"forks":108,"last_commit_at":109,"license":110,"difficulty_score":10,"env_os":111,"env_gpu":112,"env_ram":113,"env_deps":114,"category_tags":120,"github_topics":122,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":134,"updated_at":135,"faqs":136,"releases":167},4371,"SkyworkAI\u002FSkywork-R1V","Skywork-R1V","Skywork-R1V is an advanced multimodal AI model series developed by Skywork AI, specializing in vision-language reasoning.","Skywork-R1V 是由 Skywork AI 开发的一系列先进多模态人工智能模型，专注于视觉与语言的深度推理任务。它不仅能“看懂”图像内容，还能像人类一样进行逻辑推演、代码执行和跨学科研究，有效解决了传统多模态模型在处理复杂图表、科学问题及需要多步推理场景时能力不足的痛点。\n\n该系列特别适合开发者、科研人员以及需要处理高难度视觉分析任务的专业人士使用。无论是构建智能科研助手、自动化数据分析流程，还是探索前沿的具身智能应用，Skywork-R1V 都能提供强大的底层支持。普通用户也可通过集成该模型的服务平台，体验更深度的图像理解与搜索辅助功能。\n\n其技术亮点在于引入了先进的视觉思维链（Visual Chain-of-Thought）机制，并通过强化学习算法显著提升了推理能力。最新发布的 Skywork-R1V4-Lite 版本更是结合了代码执行工具，在保持超快推理速度的同时，实现了卓越的图像理解与深度研究能力。此外，项目团队持续开源了包括 38B 参数在内的多个模型版本及其量化格式（如 AWQ、GGUF），大幅降低了部署门槛，让单卡甚至 CPU 环境下的高效推理成为可能，推动了多模","Skywork-R1V 是由 Skywork AI 开发的一系列先进多模态人工智能模型，专注于视觉与语言的深度推理任务。它不仅能“看懂”图像内容，还能像人类一样进行逻辑推演、代码执行和跨学科研究，有效解决了传统多模态模型在处理复杂图表、科学问题及需要多步推理场景时能力不足的痛点。\n\n该系列特别适合开发者、科研人员以及需要处理高难度视觉分析任务的专业人士使用。无论是构建智能科研助手、自动化数据分析流程，还是探索前沿的具身智能应用，Skywork-R1V 都能提供强大的底层支持。普通用户也可通过集成该模型的服务平台，体验更深度的图像理解与搜索辅助功能。\n\n其技术亮点在于引入了先进的视觉思维链（Visual Chain-of-Thought）机制，并通过强化学习算法显著提升了推理能力。最新发布的 Skywork-R1V4-Lite 版本更是结合了代码执行工具，在保持超快推理速度的同时，实现了卓越的图像理解与深度研究能力。此外，项目团队持续开源了包括 38B 参数在内的多个模型版本及其量化格式（如 AWQ、GGUF），大幅降低了部署门槛，让单卡甚至 CPU 环境下的高效推理成为可能，推动了多模态推理技术的普惠化。","\u003C!-- markdownlint-disable first-line-h1 -->\n\u003C!-- markdownlint-disable html -->\n\u003C!-- markdownlint-disable no-duplicate-header -->\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_Skywork-R1V_readme_d3ed38d16134.png\" alt=\"Skywork Logo\" width=\"400\">\n  \u003Ch1>\u003Cstrong>Skywork-R1V4\u003C\u002Fstrong>\u003C\u002Fh1>\n\u003C\u002Fdiv>\n\n\u003Cfont size=7>\u003Cdiv align='center' >  [[📖 Skywork-R1V4 Report](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V\u002Fblob\u002Fmain\u002FSkywork_R1V4.pdf)] \u003C\u002Fdiv>\u003C\u002Ffont>\n\nWelcome to the Skywork-R1V repository! Here, you'll find a series of state-of-the-art multimodal reasoning models with powerful agentic capabilities. From open-source versions with model weights and inference code to our latest closed-source offerings, the Skywork-R1V series delivers exceptional performance across vision understanding, code execution, and deep research tasks.\n\n## 🔥 News\n\n**💥 November 18, 2025**: We released **Skywork-R1V4-Lite**, a lightweight and ultra-fast closed-source multimodal reasoning model that achieves exceptional image understanding capabilities through code execution tools. R1V4-Lite features blazing-fast inference speed and can be integrated with search tools to enable deep research capabilities. Available now on [Skywork Platform](https:\u002F\u002Fdocs.skyworkmodel.ai\u002Fr1v4\u002Fapi-reference\u002Fcompletions.html), and coming soon to OpenRouter—stay tuned!\n\n**July 15, 2025**: We've released quantized versions of ​Skywork-R1V3​ for efficient inference:\n* AWQ Quantization: [🤗 Skywork-R1V3-38B-AWQ](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-R1V3-38B-AWQ) -- Supports single-GPU inference (VRAM ≥ 30GB).\n* ​GGUF Quantization (4-bit & 8-bit)​: [🤗 Skywork-R1V3-38B-GGUF](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-R1V3-38B-GGUF) -- Optimized for CPU-based inference.\n\n**July 9, 2025**: We released Skywork-R1V3-38B [[🤗 Skywork-R1V3-38B](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-R1V3-38B)], the latest and most powerful open-source multimodal reasoning model in the Skywork series, pushing the boundaries of multimodal and cross-disciplinary intelligence. Mainly through RL algorithm in post-training, R1V3 significantly enhances multimodal reasoning ablity and achieves open-source state-of-the-art (SOTA) performance across multiple multimodal reasoning benchmarks, e.g. 76.0 on MMMU.\n\n**April 28, 2025**: We released awq quantized version of Skywork R1V2[[🤗 Skywork-R1V2-38B-AWQ](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-R1V2-38B-AWQ)], supporting single-card (above 30GB) inference.\n\n **April 24, 2025**: We released **Skywork-R1V2**, an advanced open-source multimodal reasoning model that demonstrates strong performance across a range of multimodal reasoning benchmarks including MMMU, MMMU-Pro, MathVista, and OlympiadBench.[[🤗 Skywork-R1V2-38B](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-R1V2-38B)][[📖R1V2 Report](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16656)] \n \n**April 9, 2025**: Our technical report is currently available on arxiv: [[Skywork-R1V: Pioneering Multimodal Reasoning with CoT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.05599)].\n\n**Mar 26, 2025**: We released awq quantized version of Skywork R1V[[🤗 Skywork-R1V-38B-AWQ](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-R1V-38B-AWQ)], supporting single-card (above 30GB) inference.\n\n**Mar 18, 2025**: We are thrilled to introduce Skywork R1V, the first industry open-sourced multimodal reasoning model with advanced visual chain-of-thought capabilities, pushing the boundaries of AI-driven vision and logical inference! 🚀\n\n\n## 📊 Evaluation\nSkywork-R1V4-Lite demonstrates state-of-the-art performance on various multimodal tasks, particularly excelling in perception and deep research capabilities.\n\n**Comparison of Skywork-R1V4 with Leading Multimodal Models**\n\n| Benchmark | Split | Skywork-R1V4\u003Cbr\u002F>30B(A3B) | Qwen3-VL\u003Cbr\u002F>30B(A3B) | Qwen3-VL\u003Cbr\u002F>235B(A22B) | Gemini 2.5 Flash | Gemini 2.5 Pro |\n|-----------|-------|:-------------------------:|:---------------------:|:-----------------------:|:----------------:|:--------------:|\n| **Perception** |\n| HIRbench-4K | FSP | **91.8** | 88.5 | 89.0 | 81.5 | 85.5 |\n| | FCP | 73.8 | 68.5 | **77.0** | 74.0 | 82.3 |\n| | Overall | **82.8** | 78.5 | 83.0 | 77.5 | 83.9 |\n| HIRbench-8K | FSP | **88.8** | 80.3 | 83.0 | 75.8 | 83.0 |\n| | FCP | 70.8 | 68.3 | **77.3** | 71.8 | 80.0 |\n| | Overall | **79.8** | 74.2 | 80.4 | 73.7 | 81.5 |\n| MME-Real | Perception | **73.4** | 70.4 | 74.3 | 62.3 | 73.1 |\n| | Reasoning | 56.4 | 47.7 | 52.5 | 51.0 | **58.2** |\n| | Overall | **71.4** | 67.7 | 71.6 | 60.9 | 71.3 |\n| MME-Real-CN | Perception | **76.3** | 72.6 | 76.0 | 65.8 | 74.5 |\n| | Reasoning | **59.4** | 45.0 | 53.8 | 51.3 | 58.3 |\n| | Overall | **70.8** | 63.7 | 68.8 | 61.2 | 69.3 |\n| MME-Real-Lite | Perception | **63.2** | 58.0 | 60.2 | 50.4 | 59.9 |\n| | Reasoning | **53.2** | 46.3 | 50.7 | 49.9 | 55.1 |\n| | Overall | **59.3** | 53.2 | 56.5 | 50.2 | 58.3 |\n| V* | Attribute | **90.4** | 81.7 | 79.1 | 77.3 | 86.8 |\n| | Spatial | **84.2** | 82.9 | 82.9 | 64.4 | 68.4 |\n| | Overall | **88.0** | 82.2 | 80.6 | 72.3 | 79.1 |\n| TreeBench | Overall | 48.4 | 42.7 | 49.6 | 45.9 | **54.6** |\n| Visual Probe | Hard | 42.4 | 30.1 | **42.4** | 28.3 | 33.9 |\n| | Medium | 42.9 | 35.8 | 39.1 | 31.3 | **35.4** |\n| | Easy | **66.7** | 65.2 | 65.9 | 45.3 | 49.6 |\n| **Deep Research** |\n| MMSearch | Overall | **66.1** | 18.7 | 48.0 | 64.9 | 71.9 |\n| FVQA | Overall | **67.2** | 53.3 | 54.4 | 60.7 | 72.0 |\n| BrowseComp-VL | Overall | 38.4 | 30.0 | 31.6 | 40.8 | **45.4** |\n\n**Key Highlights:**\n- 🏆 Skywork-R1V4 achieves **top performance** among 30B-class models across most perception benchmarks\n- 🚀 **Outstanding FSP scores** on HIRbench-4K (91.8) and HIRbench-8K (88.8), demonstrating exceptional high-resolution image understanding\n- 🔍 **Strong deep research capabilities** with competitive performance on MMSearch (66.1) and FVQA (67.2)\n\n \n## 🚀 How to Use Skywork-R1V4-Lite\n\nSkywork-R1V4-Lite is available as an API service. You can access it through [Skywork Platform](https:\u002F\u002Fplatform.skyworkmodel.ai) or [OpenRouter](https:\u002F\u002Fopenrouter.ai) (coming soon).\n\n### 1. Get API Access\n\nVisit [Skywork Platform](https:\u002F\u002Fplatform.skyworkmodel.ai) to obtain your API key.\n\n### 2. Quick Start with Python\n\n```python\nimport requests\nimport base64\n\ndef image_to_base64(image_path):\n    with open(image_path, \"rb\") as f:\n        image_data = f.read()\n        return base64.b64encode(image_data).decode(\"utf-8\")\n\n# API configuration\nbase_url = \"https:\u002F\u002Fapi.skyworkmodel.ai\"\napi_key = \"your_api_key_here\"\n\n# Prepare the request\nimage_base64 = image_to_base64(\"path\u002Fto\u002Fyour\u002Fimage.jpg\")\ncontent = [\n    {\"type\": \"image_url\", \"image_url\": {\"url\": f\"data:image\u002Fjpeg;base64,{image_base64}\"}},\n    {\"type\": \"text\", \"text\": \"What's in this image?\"}\n]\n\n# Call the API\nresponse = requests.post(\n    f\"{base_url}\u002Fv1\u002Fchat\u002Fcompletions\",\n    headers={\n        \"Authorization\": f\"Bearer {api_key}\",\n        \"Content-Type\": \"application\u002Fjson\"\n    },\n    json={\n        \"model\": \"skywork\u002Fr1v4-lite\",\n        \"messages\": [{\"role\": \"user\", \"content\": content}],\n        \"stream\": False,\n        \"enable_search\": False  # Set to True for deep research capabilities\n    }\n)\n\nprint(response.json()[\"choices\"][0][\"message\"][\"content\"])\n```\n\n### 3. Batch Testing with Our Tool Suite\n\nWe provide a comprehensive testing toolkit in the `r1v4` folder for batch processing and result visualization.\n\n#### Clone and Setup\n\n```shell\ngit clone https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V.git\ncd Skywork-R1V\u002Fr1v4\npip install -r requirements.txt\n```\n\n#### Prepare Test Cases\n\nEdit `test_cases.jsonl` with your test cases (one JSON per line):\n\n```json\n{\"image\": \".\u002Fdemo_image\u002Fdemo_1.png\", \"question\": \"What's in this image?\"}\n{\"image\": \"\", \"question\": \"This is a text-only question\"}\n```\n\n#### Run Batch Tests\n\n```shell\n# Non-streaming mode (default)\npython3 batch_nonstream.py\n\n# Streaming mode\npython3 batch_stream.py\n\n# With custom input\u002Foutput files\npython3 batch_nonstream.py input.jsonl output.jsonl\n\n# Using planner model for task planning\npython3 batch_planner_nonstream.py\n```\n\n#### Visualize Results\n\n```shell\n# Start the web viewer\npython3 visual.py\n\n# Then open browser and input result file path (e.g., result_nonstream.jsonl)\n```\n\n#### Parse Structured Responses\n\n```python\nfrom parse_utils import parse_full_response\n\n# Parse the response to extract reasoning steps, tool calls, and observations\nparsed = parse_full_response(response_text)\n\n# Access structured data\nfor round_data in parsed['rounds']:\n    print(f\"Round {round_data['round_num']}\")\n    print(f\"Thinking: {round_data['think']}\")\n    print(f\"Tool: {round_data['tool_call']['name']}\")\n```\n\n### 4. Features\n\n- **Code Execution**: R1V4-Lite can write and execute Python code for complex tasks\n- **Deep Research**: Enable `enable_search=True` to integrate web search capabilities\n- **Multi-turn Reasoning**: Automatic multi-step reasoning with tool usage\n- **Streaming Support**: Real-time response streaming for better user experience\n\n## License\nThis code repository is licensed under [the MIT License](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V\u002Fblob\u002Fmain\u002FLICENSE). \n\n✅ Commercial use permitted\n\n✅ Modification allowed\n\n✅ Distribution allowed\n\n❌ No liability\n\nSkywork-R1V4-Lite is based on [Qwen3-VL-30B-A3B-Instruct](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-VL-30B-A3B-Instruct) as the base model, which is licensed under the Apache 2.0 License.\n\n## Acknowledgments\n\nWe would like to express our gratitude to the following open-source projects that have been instrumental in our work:\n\n- [MS-SWIFT](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fswift): A powerful framework for model training and fine-tuning that greatly facilitated our model development process.\n- [VLMEvalKit](https:\u002F\u002Fgithub.com\u002Fopen-compass\u002FVLMEvalKit): A comprehensive evaluation toolkit for vision-language models that enabled our extensive benchmarking.\n\n## 🔮 Future Directions\n\nWe are excited to share our vision for the future development of the Skywork-R1V series:\n\n- **Skywork-R1V4-Pro**: We are developing a more powerful model with enhanced capabilities across all benchmarks. Stay tuned for the upcoming release!\n- **Reinforcement Learning Research**: We are actively exploring the application of reinforcement learning techniques to advance multimodal reasoning and agentic capabilities, pushing the boundaries of what's possible in vision-language AI.\n\n## ❤️Misc\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_Skywork-R1V_readme_8d5d7775ec58.png)](https:\u002F\u002Fstar-history.com\u002F#SkyworkAI\u002FSkywork-R1V&Date)\n\n## Citation\nIf you use Skywork-R1V in your research, please cite:\n```\n@misc{zhang2025skyworkr1v4agenticmultimodalintelligence,\n      title={Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch}, \n      author={Yifan Zhang and Liang Hu and Haofeng Sun and Peiyu Wang and Yichen Wei and Shukang Yin and Jiangbo Pei and Wei Shen and Peng Xia and Yi Peng and Tianyidan Xie and Eric Li and Yang Liu and Xuchen Song and Yahui Zhou},\n      year={2025},\n      eprint={2512.02395},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.02395}, \n}\n```\n```\n@misc{shen2025skyworkr1v3technicalreport,\n      title={Skywork-R1V3 Technical Report}, \n      author={Wei Shen and Jiangbo Pei and Yi Peng and Xuchen Song and Yang Liu and Jian Peng and Haofeng Sun and Yunzhuo Hao and Peiyu Wang and Jianhao Zhang and Yahui Zhou},\n      year={2025},\n      eprint={2507.06167},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.06167}, \n}\n```\n```\n@misc{wang2025skyworkr1v2multimodalhybrid,\n      title={Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning}, \n      author={Peiyu Wang and Yichen Wei and Yi Peng and Xiaokun Wang and Weijie Qiu and Wei Shen and Tianyidan Xie and Jiangbo Pei and Jianhao Zhang and Yunzhuo Hao and Xuchen Song and Yang Liu and Yahui Zhou},\n      year={2025},\n      eprint={2504.16656},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16656}, \n}\n```\n\n```\n@misc{peng2025skyworkr1vpioneeringmultimodal,\n      title={Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought}, \n      author={Yi Peng and Peiyu Wang and Xiaokun Wang and Yichen Wei and Jiangbo Pei and Weijie Qiu and Ai Jian and Yunzhuo Hao and Jiachun Pan and Tianyidan Xie and Li Ge and Rongxian Zhuang and Xuchen Song and Yang Liu and Yahui Zhou},\n      year={2025},\n      eprint={2504.05599},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.05599}, \n}\n```\n","\u003C!-- markdownlint-disable first-line-h1 -->\n\u003C!-- markdownlint-disable html -->\n\u003C!-- markdownlint-disable no-duplicate-header -->\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_Skywork-R1V_readme_d3ed38d16134.png\" alt=\"Skywork Logo\" width=\"400\">\n  \u003Ch1>\u003Cstrong>Skywork-R1V4\u003C\u002Fstrong>\u003C\u002Fh1>\n\u003C\u002Fdiv>\n\n\u003Cfont size=7>\u003Cdiv align='center' >  [[📖 Skywork-R1V4 报告](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V\u002Fblob\u002Fmain\u002FSkywork_R1V4.pdf)] \u003C\u002Fdiv>\u003C\u002Ffont>\n\n欢迎来到 Skywork-R1V 仓库！在这里，您将找到一系列具备强大智能体能力的最先进多模态推理模型。从包含模型权重和推理代码的开源版本，到我们最新的闭源产品，Skywork-R1V 系列在视觉理解、代码执行以及深度研究任务等方面均表现出色。\n\n## 🔥 最新动态\n\n**💥 2025年11月18日**：我们发布了 **Skywork-R1V4-Lite**，这是一款轻量级、超快速的闭源多模态推理模型，通过代码执行工具实现了卓越的图像理解能力。R1V4-Lite 具有极快的推理速度，并可与搜索工具集成，从而支持深度研究功能。现已在 [Skywork 平台](https:\u002F\u002Fdocs.skyworkmodel.ai\u002Fr1v4\u002Fapi-reference\u002Fcompletions.html) 上提供，不久也将登陆 OpenRouter——敬请期待！\n\n**2025年7月15日**：我们发布了 Skywork-R1V3 的量化版本，以实现高效推理：\n* AWQ 量化：[🤗 Skywork-R1V3-38B-AWQ](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-R1V3-38B-AWQ) -- 支持单 GPU 推理（显存 ≥ 30GB）。\n* GGUF 量化（4-bit 和 8-bit）：[🤗 Skywork-R1V3-38B-GGUF](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-R1V3-38B-GGUF) -- 针对 CPU 推理进行了优化。\n\n**2025年7月9日**：我们发布了 Skywork-R1V3-38B [[🤗 Skywork-R1V3-38B](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-R1V3-38B)]，这是 Skywork 系列中最新、最强大的开源多模态推理模型，进一步突破了多模态与跨学科智能的边界。主要通过后训练阶段的强化学习算法，R1V3 显著提升了多模态推理能力，在多个多模态推理基准测试中达到了开源领域的最先进水平（SOTA），例如在 MMMU 上取得了 76.0 的成绩。\n\n**2025年4月28日**：我们发布了 Skywork R1V2 的 AWQ 量化版本[[🤗 Skywork-R1V2-38B-AWQ](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-R1V2-38B-AWQ)]，支持单卡（显存 30GB 以上）推理。\n\n**2025年4月24日**：我们发布了 **Skywork-R1V2**，这是一款先进的开源多模态推理模型，在包括 MMMU、MMMU-Pro、MathVista 和 OlympiadBench 在内的多项多模态推理基准测试中表现出色。[[🤗 Skywork-R1V2-38B](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-R1V2-38B)][[📖 R1V2 报告](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16656)]\n\n**2025年4月9日**：我们的技术报告目前已在 arXiv 上发布：[[Skywork-R1V：开创性的多模态推理与思维链方法](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.05599)]。\n\n**2025年3月26日**：我们发布了 Skywork R1V 的 AWQ 量化版本[[🤗 Skywork-R1V-38B-AWQ](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-R1V-38B-AWQ)]，支持单卡（显存 30GB 以上）推理。\n\n**2025年3月18日**：我们非常高兴地推出 Skywork R1V，这是业界首款开源的多模态推理模型，具备先进的视觉思维链能力，进一步推动了人工智能驱动的视觉理解和逻辑推理的边界！🚀\n\n\n## 📊 评估\nSkywork-R1V4-Lite 在各类多模态任务中表现出最先进的性能，尤其在感知能力和深度研究方面表现突出。\n\n**Skywork-R1V4 与主流多模态模型的对比**\n\n| 基准测试 | 划分 | Skywork-R1V4\u003Cbr\u002F>30B(A3B) | Qwen3-VL\u003Cbr\u002F>30B(A3B) | Qwen3-VL\u003Cbr\u002F>235B(A22B) | Gemini 2.5 Flash | Gemini 2.5 Pro |\n|-----------|-------|:-------------------------:|:---------------------:|:-----------------------:|:----------------:|:--------------:|\n| **感知能力** |\n| HIRbench-4K | FSP | **91.8** | 88.5 | 89.0 | 81.5 | 85.5 |\n| | FCP | 73.8 | 68.5 | **77.0** | 74.0 | 82.3 |\n| | 总体 | **82.8** | 78.5 | 83.0 | 77.5 | 83.9 |\n| HIRbench-8K | FSP | **88.8** | 80.3 | 83.0 | 75.8 | 83.0 |\n| | FCP | 70.8 | 68.3 | **77.3** | 71.8 | 80.0 |\n| | 总体 | **79.8** | 74.2 | 80.4 | 73.7 | 81.5 |\n| MME-Real | 感知 | **73.4** | 70.4 | 74.3 | 62.3 | 73.1 |\n| | 推理 | 56.4 | 47.7 | 52.5 | 51.0 | **58.2** |\n| | 总体 | **71.4** | 67.7 | 71.6 | 60.9 | 71.3 |\n| MME-Real-CN | 感知 | **76.3** | 72.6 | 76.0 | 65.8 | 74.5 |\n| | 推理 | **59.4** | 45.0 | 53.8 | 51.3 | 58.3 |\n| | 总体 | **70.8** | 63.7 | 68.8 | 61.2 | 69.3 |\n| MME-Real-Lite | 感知 | **63.2** | 58.0 | 60.2 | 50.4 | 59.9 |\n| | 推理 | **53.2** | 46.3 | 50.7 | 49.9 | 55.1 |\n| | 总体 | **59.3** | 53.2 | 56.5 | 50.2 | 58.3 |\n| V* | 属性 | **90.4** | 81.7 | 79.1 | 77.3 | 86.8 |\n| | 空间 | **84.2** | 82.9 | 82.9 | 64.4 | 68.4 |\n| | 总体 | **88.0** | 82.2 | 80.6 | 72.3 | 79.1 |\n| TreeBench | 总体 | 48.4 | 42.7 | 49.6 | 45.9 | **54.6** |\n| Visual Probe | 困难 | 42.4 | 30.1 | **42.4** | 28.3 | 33.9 |\n| | 中等 | 42.9 | 35.8 | 39.1 | 31.3 | **35.4** |\n| | 容易 | **66.7** | 65.2 | 65.9 | 45.3 | 49.6 |\n| **深度研究** |\n| MMSearch | 总体 | **66.1** | 18.7 | 48.0 | 64.9 | 71.9 |\n| FVQA | 总体 | **67.2** | 53.3 | 54.4 | 60.7 | 72.0 |\n| BrowseComp-VL | 总体 | 38.4 | 30.0 | 31.6 | 40.8 | **45.4** |\n\n**关键亮点：**\n- 🏆 Skywork-R1V4 在大多数感知类基准测试中，于 30B 级别模型中取得 **最高性能**\n- 🚀 在 HIRbench-4K（91.8）和 HIRbench-8K（88.8）上展现出 **出色的 FSP 分数**，证明其对高分辨率图像具有卓越的理解能力\n- 🔍 **强大的深度研究能力**，在 MMSearch（66.1）和 FVQA（67.2）上均表现优异且具有竞争力\n\n \n## 🚀 如何使用 Skywork-R1V4-Lite\n\nSkywork-R1V4-Lite 以 API 服务的形式提供。您可以通过 [Skywork 平台](https:\u002F\u002Fplatform.skyworkmodel.ai) 或 [OpenRouter](https:\u002F\u002Fopenrouter.ai)（即将上线）访问它。\n\n### 1. 获取 API 访问权限\n\n请访问 [Skywork 平台](https:\u002F\u002Fplatform.skyworkmodel.ai)，以获取您的 API 密钥。\n\n### 2. Python 快速入门\n\n```python\nimport requests\nimport base64\n\ndef image_to_base64(image_path):\n    with open(image_path, \"rb\") as f:\n        image_data = f.read()\n        return base64.b64encode(image_data).decode(\"utf-8\")\n\n# API 配置\nbase_url = \"https:\u002F\u002Fapi.skyworkmodel.ai\"\napi_key = \"your_api_key_here\"\n\n# 准备请求\nimage_base64 = image_to_base64(\"path\u002Fto\u002Fyour\u002Fimage.jpg\")\ncontent = [\n    {\"type\": \"image_url\", \"image_url\": {\"url\": f\"data:image\u002Fjpeg;base64,{image_base64}\"}},\n    {\"type\": \"text\", \"text\": \"这张图片里有什么？\"}\n]\n\n# 调用 API\nresponse = requests.post(\n    f\"{base_url}\u002Fv1\u002Fchat\u002Fcompletions\",\n    headers={\n        \"Authorization\": f\"Bearer {api_key}\",\n        \"Content-Type\": \"application\u002Fjson\"\n    },\n    json={\n        \"model\": \"skywork\u002Fr1v4-lite\",\n        \"messages\": [{\"role\": \"user\", \"content\": content}],\n        \"stream\": False,\n        \"enable_search\": False  # 设置为 True 以启用深度搜索功能\n    }\n)\n\nprint(response.json()[\"choices\"][0][\"message\"][\"content\"])\n```\n\n### 3. 使用我们的工具套件进行批量测试\n\n我们在 `r1v4` 文件夹中提供了一个全面的测试工具包，用于批量处理和结果可视化。\n\n#### 克隆并设置\n\n```shell\ngit clone https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V.git\ncd Skywork-R1V\u002Fr1v4\npip install -r requirements.txt\n```\n\n#### 准备测试用例\n\n编辑 `test_cases.jsonl` 文件，添加你的测试用例（每行一个 JSON）：\n\n```json\n{\"image\": \".\u002Fdemo_image\u002Fdemo_1.png\", \"question\": \"这张图片里有什么？\"}\n{\"image\": \"\", \"question\": \"这是一道纯文本题目\"}\n```\n\n#### 运行批量测试\n\n```shell\n# 非流式模式（默认）\npython3 batch_nonstream.py\n\n# 流式模式\npython3 batch_stream.py\n\n# 使用自定义输入输出文件\npython3 batch_nonstream.py input.jsonl output.jsonl\n\n# 使用规划模型进行任务规划\npython3 batch_planner_nonstream.py\n```\n\n#### 可视化结果\n\n```shell\n# 启动网页查看器\npython3 visual.py\n\n# 然后打开浏览器，输入结果文件路径（例如 result_nonstream.jsonl）\n```\n\n#### 解析结构化响应\n\n```python\nfrom parse_utils import parse_full_response\n\n# 解析响应，提取推理步骤、工具调用和观测结果\nparsed = parse_full_response(response_text)\n\n# 访问结构化数据\nfor round_data in parsed['rounds']:\n    print(f\"第 {round_data['round_num']} 轮\")\n    print(f\"思考：{round_data['think']}\")\n    print(f\"工具：{round_data['tool_call']['name']}\")\n```\n\n### 4. 功能特性\n\n- **代码执行**：R1V4-Lite 可以编写并执行 Python 代码来完成复杂任务。\n- **深度搜索**：启用 `enable_search=True` 即可集成网络搜索功能。\n- **多轮推理**：自动进行多步推理，并结合工具使用。\n- **流式支持**：支持实时响应流，提升用户体验。\n\n## 许可证\n本代码仓库采用 [MIT 许可证](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V\u002Fblob\u002Fmain\u002FLICENSE) 开放。\n\n✅ 允许商业使用  \n✅ 允许修改  \n✅ 允许分发  \n❌ 不承担任何责任  \n\nSkywork-R1V4-Lite 基于 [Qwen3-VL-30B-A3B-Instruct](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-VL-30B-A3B-Instruct) 模型，该模型采用 Apache 2.0 许可证。\n\n## 致谢\n\n我们衷心感谢以下开源项目对我们的工作提供的巨大帮助：\n\n- [MS-SWIFT](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fswift)：一个强大的模型训练与微调框架，极大地促进了我们的模型开发进程。\n- [VLMEvalKit](https:\u002F\u002Fgithub.com\u002Fopen-compass\u002FVLMEvalKit)：一套全面的视觉语言模型评估工具，使我们能够进行广泛的基准测试。\n\n## 🔮 未来方向\n\n我们非常期待分享 Skywork-R1V 系列未来的研发愿景：\n\n- **Skywork-R1V4-Pro**：我们正在开发一款功能更强大的模型，将在所有基准测试中表现出色。敬请期待即将发布的版本！\n- **强化学习研究**：我们正积极探索将强化学习技术应用于多模态推理和智能体能力的提升，不断突破视觉语言 AI 的边界。\n\n## ❤️杂项\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_Skywork-R1V_readme_8d5d7775ec58.png)](https:\u002F\u002Fstar-history.com\u002F#SkyworkAI\u002FSkywork-R1V&Date)\n\n## 引用\n如果您在研究中使用了 Skywork-R1V，请引用以下文献：\n```\n@misc{zhang2025skyworkr1v4agenticmultimodalintelligence,\n      title={Skywork-R1V4: 通过图像与深度搜索交织的思维实现智能体式多模态智能}, \n      author={Yifan Zhang 和 Liang Hu 和 Haofeng Sun 和 Peiyu Wang 和 Yichen Wei 和 Shukang Yin 和 Jiangbo Pei 和 Wei Shen 和 Peng Xia 和 Yi Peng 和 Tianyidan Xie 和 Eric Li 和 Yang Liu 和 Xuchen Song 和 Yahui Zhou},\n      year={2025},\n      eprint={2512.02395},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.02395}, \n}\n```\n```\n@misc{shen2025skyworkr1v3technicalreport,\n      title={Skywork-R1V3 技术报告}, \n      author={Wei Shen 和 Jiangbo Pei 和 Yi Peng 和 Xuchen Song 和 Yang Liu 和 Jian Peng 和 Haofeng Sun 和 Yunzhuo Hao 和 Peiyu Wang 和 Jianhao Zhang 和 Yahui Zhou},\n      year={2025},\n      eprint={2507.06167},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.06167}, \n}\n```\n```\n@misc{wang2025skyworkr1v2multimodalhybrid,\n      title={Skywork R1V2：用于推理的多模态混合强化学习}, \n      author={Peiyu Wang 和 Yichen Wei 和 Yi Peng 和 Xiaokun Wang 和 Weijie Qiu 和 Wei Shen 和 Tianyidan Xie 和 Jiangbo Pei 和 Jianhao Zhang 和 Yunzhuo Hao 和 Xuchen Song 和 Yang Liu 和 Yahui Zhou},\n      year={2025},\n      eprint={2504.16656},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16656}, \n}\n```\n\n```\n@misc{peng2025skyworkr1vpioneeringmultimodal,\n      title={Skywork R1V：开创性的思维链多模态推理}, \n      author={Yi Peng 和 Peiyu Wang 和 Xiaokun Wang 和 Yichen Wei 和 Jiangbo Pei 和 Weijie Qiu 和 Ai Jian 和 Yunzhuo Hao 和 Jiachun Pan 和 Tianyidan Xie 和 Li Ge 和 Rongxian Zhuang 和 Xuchen Song 和 Yang Liu 和 Yahui Zhou},\n      year={2025},\n      eprint={2504.05599},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.05599}, \n}\n```","# Skywork-R1V4-Lite 快速上手指南\n\nSkywork-R1V4-Lite 是一款轻量级、超快的闭源多模态推理模型，具备强大的图像理解、代码执行及深度研究（联网搜索）能力。本指南将帮助您快速通过 API 调用该模型。\n\n## 环境准备\n\n*   **系统要求**：支持 Linux、macOS 或 Windows。\n*   **前置依赖**：\n    *   Python 3.8 及以上版本\n    *   `requests` 库（用于 API 调用）\n    *   有效的 Skywork Platform API Key\n\n## 安装步骤\n\n1.  **获取 API Key**\n    访问 [Skywork Platform](https:\u002F\u002Fplatform.skyworkmodel.ai) 注册账号并获取您的 API Key。\n\n2.  **安装 Python 依赖**\n    如果您需要运行官方提供的批量测试工具套件，请克隆仓库并安装依赖：\n\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V.git\n    cd Skywork-R1V\u002Fr1v4\n    pip install -r requirements.txt\n    # 国内用户如遇下载慢，可指定清华源：\n    # pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n\n    若仅需通过代码调用 API，只需安装 requests：\n    ```bash\n    pip install requests\n    ```\n\n## 基本使用\n\n### 方式一：Python 代码调用（推荐）\n\n以下是最简单的单图问答示例。将 `your_api_key_here` 替换为您的真实 Key，并修改图片路径即可运行。\n\n```python\nimport requests\nimport base64\n\ndef image_to_base64(image_path):\n    with open(image_path, \"rb\") as f:\n        image_data = f.read()\n        return base64.b64encode(image_data).decode(\"utf-8\")\n\n# API 配置\nbase_url = \"https:\u002F\u002Fapi.skyworkmodel.ai\"\napi_key = \"your_api_key_here\"  # 请替换为您的真实 API Key\n\n# 准备请求内容\n# 替换为您本地的图片路径\nimage_base64 = image_to_base64(\"path\u002Fto\u002Fyour\u002Fimage.jpg\")\ncontent = [\n    {\"type\": \"image_url\", \"image_url\": {\"url\": f\"data:image\u002Fjpeg;base64,{image_base64}\"}},\n    {\"type\": \"text\", \"text\": \"What's in this image?\"}\n]\n\n# 调用 API\nresponse = requests.post(\n    f\"{base_url}\u002Fv1\u002Fchat\u002Fcompletions\",\n    headers={\n        \"Authorization\": f\"Bearer {api_key}\",\n        \"Content-Type\": \"application\u002Fjson\"\n    },\n    json={\n        \"model\": \"skywork\u002Fr1v4-lite\",\n        \"messages\": [{\"role\": \"user\", \"content\": content}],\n        \"stream\": False,\n        \"enable_search\": False  # 设置为 True 可开启深度研究\u002F联网搜索功能\n    }\n)\n\nprint(response.json()[\"choices\"][0][\"message\"][\"content\"])\n```\n\n### 方式二：使用官方工具套件进行批量测试\n\n如果您需要批量处理图片或可视化推理过程，可使用仓库自带的工具。\n\n1.  **准备测试数据**\n    编辑 `test_cases.jsonl` 文件，每行填入一个测试用例：\n    ```json\n    {\"image\": \".\u002Fdemo_image\u002Fdemo_1.png\", \"question\": \"What's in this image?\"}\n    {\"image\": \"\", \"question\": \"This is a text-only question\"}\n    ```\n\n2.  **运行批量测试**\n    ```bash\n    # 非流式模式（默认）\n    python3 batch_nonstream.py\n\n    # 流式模式\n    python3 batch_stream.py\n\n    # 自定义输入输出文件\n    python3 batch_nonstream.py input.jsonl output.jsonl\n    ```\n\n3.  **可视化结果**\n    启动本地 Web 查看器以分析模型的思考过程和工具调用：\n    ```bash\n    python3 visual.py\n    # 然后在浏览器中输入生成的结果文件路径（如 result_nonstream.jsonl）\n    ```\n\n### 核心功能提示\n\n*   **代码执行**：模型会自动编写并执行 Python 代码以解决复杂任务，无需额外配置。\n*   **深度研究**：在 API 请求中将 `enable_search` 设为 `True`，即可启用联网搜索能力。\n*   **多轮推理**：模型支持自动多步推理和工具调用链。","某医疗科研团队需要快速从数千张历史病理切片报告（包含显微镜图像与手写诊断备注）中提取关键数据，以构建癌症早期筛查的关联数据库。\n\n### 没有 Skywork-R1V 时\n- **多模态理解割裂**：传统 OCR 工具只能识别文字，无法理解显微镜图像中的细胞形态特征，导致图像信息与文本诊断结论无法自动关联。\n- **复杂推理缺失**：面对手写备注中模糊的描述（如“疑似异型增生”），模型缺乏逻辑链（CoT）推理能力，难以判断其对应的临床分级标准，需人工逐条复核。\n- **处理效率低下**：研究人员需手动对照图片与文字进行标注，处理单份报告平均耗时 15 分钟，千份数据需数周才能完成清洗。\n- **代码执行受限**：无法直接让 AI 编写并运行代码来统计特定形态细胞的分布比例，必须依赖专业数据科学家另行开发脚本。\n\n### 使用 Skywork-R1V 后\n- **视觉 - 语言深度协同**：Skywork-R1V 能同时“看懂”病理图像中的细胞结构并理解旁边的手写注释，自动将图像特征与文本诊断精准对齐。\n- **强化逻辑推理**：凭借先进的思维链能力，Skywork-R1V 能像专家一样逐步推导，自动将模糊的手写描述映射到标准的临床分级体系中，准确率大幅提升。\n- **智能体自动化**：利用其 Agent 能力，Skywork-R1V 可自主调用代码解释器，实时生成 Python 脚本计算细胞密度并输出统计图表，实现端到端的数据提取。\n- **极速批量处理**：部署量化版本后，单卡即可高效推理，千份报告的处理时间从数周缩短至数小时，且无需额外开发定制算法。\n\nSkywork-R1V 通过强大的多模态推理与代码执行能力，将原本繁琐的人工跨模态数据清洗工作转化为全自动化的智能流程，极大释放了科研生产力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_Skywork-R1V_f47291df.png","SkyworkAI","Skywork ","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FSkyworkAI_347e666f.jpg","Transfer knowledge, Unlock creativity.",null,"https:\u002F\u002Fskywork.ai\u002F","https:\u002F\u002Fgithub.com\u002FSkyworkAI",[81,85,89,93,97,101,104],{"name":82,"color":83,"percentage":84},"Python","#3572A5",99.1,{"name":86,"color":87,"percentage":88},"Jupyter Notebook","#DA5B0B",0.6,{"name":90,"color":91,"percentage":92},"Shell","#89e051",0.2,{"name":94,"color":95,"percentage":96},"CSS","#663399",0.1,{"name":98,"color":99,"percentage":100},"Makefile","#427819",0,{"name":102,"color":103,"percentage":100},"HTML","#e34c26",{"name":105,"color":106,"percentage":100},"JavaScript","#f1e05a",3166,278,"2026-04-03T09:27:42","MIT","未说明","开源版本（如 Skywork-R1V3-38B-AWQ）需单张显存≥30GB 的 NVIDIA GPU；Skywork-R1V4-Lite 为闭源 API 服务，本地无需 GPU；GGUF 量化版支持纯 CPU 推理。","未说明（建议根据模型参数量配置充足内存，38B 模型通常建议 64GB+）",{"notes":115,"python":116,"dependencies":117},"1. Skywork-R1V4-Lite 是闭源模型，仅通过 API 调用，无需本地部署环境。\n2. 若需运行开源版本（如 R1V3-38B），AWQ 量化版需单卡显存≥30GB，GGUF 版可在 CPU 运行。\n3. 本地测试工具需克隆仓库并安装 r1v4 文件夹下的 requirements.txt 依赖。\n4. 代码示例展示了如何通过 Python requests 库调用 API 进行图像理解和深度搜索。","未说明（示例代码使用 python3，通常建议 3.8+）",[118,119],"requests","未说明具体深度学习框架版本（依赖 requirements.txt）",[121,14,35],"其他",[123,124,125,126,127,128,129,130,131,132,133],"deepseek-r1","llm","r1v","reasoning","skywork-r1v","multimodal-understanding","multimodal-r1","vlm","grpo","reinforcement-learning","vlm-r1","2026-03-27T02:49:30.150509","2026-04-06T19:55:29.395111",[137,142,147,152,157,162],{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},19874,"运行 inference_with_vllm.py 时报错提示模型类型不匹配（skywork_chat vs internvl_chat），如何解决？","请确保评估环境配置正确。运行以下脚本以安装所有必要的依赖项：\n```bash\ncd Skywork-R1V\nbash .\u002Feval\u002Fvlmevalkit\u002Fbuild_env.sh\n```\n如果仍然遇到警告但不影响运行，可以忽略；若涉及 vLLM 版本兼容性问题（如 v0.9.2），可能需要手动修改源码中的类型注解（例如将 `Optional[list[int]]` 改为 `Optional[List[int]]`）。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V\u002Fissues\u002F39",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},19875,"如何关闭 Skywork-R1V3-38B 模型的思考模式（thinking mode）以避免输出过长？","需要修改模板配置以移除 `\u003Cthink>` 标签。具体步骤如下：\n1. 在 `conversation.py` 文件第 340 行，将：\n   `roles=('\u003C|im_start|>user\\n', '\u003C|im_start|>assistant\\n\u003Cthink>\\n')`\n   修改为：\n   `roles=('\u003C|im_start|>user\\n', '\u003C|im_start|>assistant\\n')`\n2. 在 `tokenizer_config.json` 文件第 271 行，将：\n   `{{- '\u003C|im_start|>assistant\\\\n\u003Cthink>\\\\n' }}`\n   修改为：\n   `{{- '\u003C|im_start|>assistant\\\\n' }}`\n修改后模型将不再强制输出思考过程。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V\u002Fissues\u002F40",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},19876,"使用 vLLM Docker 部署 Skywork-R1V3-38B 时，为什么回答中没有 `\u003Cthink>` 标签？","这是预期行为。当前实现遵循 QWQ chat-template，默认不在响应开头包含 `\u003Cthink>` 令牌，以便灵活切换慢思考和无思考模式。\n如果您需要在流式模式下获取带 `\u003Cthink>` 的回答，可以在查询模型的脚本中手动添加该令牌前缀。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V\u002Fissues\u002F34",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},19877,"Skywork-R1V3 Connector-Only Tuning 阶段的数据标签（label\u002Fanswer）是如何生成的？格式要求是什么？","该阶段的数据标签是基于内部收集和人工标注的私有多模态数据集生成的，由于公司隐私政策无法公开具体数据来源和提示词细节。\n数据主要为问答（QA）形式，包含具有挑战性的推理问题。所有答案均遵循结构化格式，包含明确的思考步骤，即：`\u003Cthink>...\u003C\u002Fthink>\u003Canswer>...\u003C\u002Fanswer>`。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V\u002Fissues\u002F37",{"id":158,"question_zh":159,"answer_zh":160,"source_url":161},19878,"团队是否会开源部分多模态训练数据集或种子提示词（seed prompts）？","由于公司政策限制，目前无法开源专有数据集或种子提示词。\n建议社区用户考虑使用蒸馏方法生成合成数据。此外，推荐参考 Hugging Face 上的 [MMK12](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FFanqingM\u002FMMK12) 数据集，这是一个用于多模态 RL 训练的优质开源资源。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V\u002Fissues\u002F36",{"id":163,"question_zh":164,"answer_zh":165,"source_url":166},19879,"Skywork R1V2 的训练策略中，为什么只训练 Adapter 效果最好？有没有尝试过联合训练 Encoder 或 LLM？","团队实验了三种训练方式：仅 Adapter、Adapter + Encoder、Adapter + LLM。\n- 仅 Adapter：Loss 未能收敛到最低值（SFT Loss 约为 1.x）。\n- Adapter + LLM：Loss 显著降低，潜力巨大，虽然当前评测指标略低于仅 Adapter 方案，但仍在持续优化中。\n- VIT + Adapter + LLM：曾进行测试，但发现训练过程中容易变得不稳定。\n因此，目前最佳实践是仅训练 Adapter。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FSkywork-R1V\u002Fissues\u002F21",[]]