[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-FoundationVision--Groma":3,"tool-FoundationVision--Groma":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",151314,2,"2026-04-11T23:32:58",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":75,"owner_url":76,"languages":77,"stars":113,"forks":114,"last_commit_at":115,"license":116,"difficulty_score":117,"env_os":118,"env_gpu":119,"env_ram":120,"env_deps":121,"category_tags":131,"github_topics":133,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":143,"updated_at":144,"faqs":145,"releases":175},6748,"FoundationVision\u002FGroma","Groma","[ECCV2024] Grounded Multimodal Large Language Model with Localized Visual Tokenization","Groma 是一款专为提升视觉理解精度而设计的多模态大语言模型。它核心解决了传统 AI 在“看图说话”时难以精准定位具体物体区域的痛点。不同于以往依赖外部模块或仅靠文本描述来猜测位置的方法，Groma 创新性地引入了“局部视觉令牌化”技术，让模型能够直接理解用户指定的图像区域（如方框），并生成与该视觉上下文紧密关联的详细回答。\n\n这意味着，当你询问图中某个特定细节时，Groma 不仅能准确指出目标在哪里，还能基于该区域提供深入的长文本解析，在指代表达式理解等关键基准测试中达到了行业领先水平。\n\nGroma 特别适合人工智能研究人员、开发者以及对高精度视觉分析有需求的专业人士使用。无论是需要构建具备精细感知能力的智能助手，还是希望深入研究多模态模型的地基化（Grounding）机制，Groma 都提供了一个强大的开源基座。其独特的技术路径摒弃了复杂的额外定位模块，通过改进视觉令牌的处理方式，实现了更高效、更精准的图文交互体验，为开发下一代懂细节的视觉 AI 应用奠定了坚实基础。","\u003Cdiv align=\"center\">\n\u003Ch1> Groma: Grounded Multimodal Assistant \u003C\u002Fh1>\n\n> [**Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.13013)               \n> **Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi**\n> \n>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.13013\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Groma-red' alt='Paper PDF'>\u003C\u002Fa>\n>\u003Ca href='https:\u002F\u002Fgroma-mllm.github.io\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject_Page-Groma-green' alt='Project Page'>\u003C\u002Fa>\n>\u003Ca href='https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fgroma-7b-finetune'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Model-blue'>\u003C\u002Fa>\n>\u003Ca href='https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FFoundationVision\u002Fgroma_instruct'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Dataset-yellow'>\u003C\u002Fa>\n\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_Groma_readme_6e1fdc77ba82.png' align=\"center\" width=\"80%\">\n\u003Cp align=\"left\">Groma is an MLLM with exceptional region understanding and visual grounding capabilities. It can take user-defined region inputs (boxes) as well as generate long-form responses that are grounded to visual context.\u003C\u002Fp>\n\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_Groma_readme_41ca3ac13032.png' align=\"center\" width=\"80%\">\n\u003Cp align=\"left\">Groma presents a novel paradigm of grounded MLLMs. (a) LLM for localization (e.g., Kosmos-2, Shikra); (b) External modules for localization (e.g., Lisa); and (c) \u003Cb>Visual tokenier for localization (Groma)\u003C\u002Fb>.\n\n\u003C\u002Fdiv>\n\n\n## Contents\n- [Install](#installation)\n- [Model](#model-weights)\n- [Data](#prepare-data)\n- [Training](#training)\n- [Inference](#inference)\n- [Evaluation](#evaluation)\n\n\n\n## Performance\nState-of-the-art performance on referring expression comprehension (REC) benchmarks among multimodal\nlarge language models.\n\n\u003Ctable>\n    \u003Cthead>\n    \u003Ctr>\n        \u003Cth rowspan=\"2\">Method\u003C\u002Fth>\n        \u003Cth colspan=\"3\">RefCOCO\u003C\u002Fth>\n        \u003Cth colspan=\"3\">RefCOCO+\u003C\u002Fth>\n        \u003Cth colspan=\"2\">RefCOCOg\u003C\u002Fth>\n        \u003Cth rowspan=\"2\">Avergae\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n        \u003Cth>val\u003C\u002Fth>\n        \u003Cth>testA\u003C\u002Fth>\n        \u003Cth>testB\u003C\u002Fth>\n        \u003Cth>val\u003C\u002Fth>\n        \u003Cth>testA\u003C\u002Fth>\n        \u003Cth>testB\u003C\u002Fth>\n        \u003Cth>val\u003C\u002Fth>\n        \u003Cth>test\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n    \u003Ctr align=\"center\">\n        \u003Ctd>Shikra\u003C\u002Ftd>\n        \u003Ctd>87.01\u003C\u002Ftd>\n        \u003Ctd>90.61\u003C\u002Ftd>\n        \u003Ctd>80.24\u003C\u002Ftd>\n        \u003Ctd>81.60\u003C\u002Ftd>\n        \u003Ctd>87.36\u003C\u002Ftd>\n        \u003Ctd>72.12\u003C\u002Ftd>\n        \u003Ctd>82.27\u003C\u002Ftd>\n        \u003Ctd>82.19\u003C\u002Ftd>\n        \u003Ctd>82.93\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr align=\"center\">\n        \u003Ctd>Ferret\u003C\u002Ftd>\n        \u003Ctd>87.49\u003C\u002Ftd>\n        \u003Ctd>91.35\u003C\u002Ftd>\n        \u003Ctd>82.45\u003C\u002Ftd>\n        \u003Ctd>80.78\u003C\u002Ftd>\n        \u003Ctd>87.38\u003C\u002Ftd>\n        \u003Ctd>73.14\u003C\u002Ftd>\n        \u003Ctd>83.93\u003C\u002Ftd>\n        \u003Ctd>84.76\u003C\u002Ftd>\n        \u003Ctd>83.91\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr align=\"center\">\n        \u003Ctd>MiniGPT-v2\u003C\u002Ftd>\n        \u003Ctd>88.69\u003C\u002Ftd>\n        \u003Ctd>91.65\u003C\u002Ftd>\n        \u003Ctd>85.33\u003C\u002Ftd>\n        \u003Ctd>79.97\u003C\u002Ftd>\n        \u003Ctd>85.12\u003C\u002Ftd>\n        \u003Ctd>74.45\u003C\u002Ftd>\n        \u003Ctd>84.44\u003C\u002Ftd>\n        \u003Ctd>84.66\u003C\u002Ftd>\n        \u003Ctd>84.29\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr align=\"center\">\n        \u003Ctd>Qwen-VL\u003C\u002Ftd>\n        \u003Ctd>89.36\u003C\u002Ftd>\n        \u003Ctd>92.26\u003C\u002Ftd>\n        \u003Ctd>85.34\u003C\u002Ftd>\n        \u003Ctd>83.12\u003C\u002Ftd>\n        \u003Ctd>88.25\u003C\u002Ftd>\n        \u003Ctd>77.21\u003C\u002Ftd>\n        \u003Ctd>85.58\u003C\u002Ftd>\n        \u003Ctd>85.48\u003C\u002Ftd>\n        \u003Ctd>85.83\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"background-color: #ADD8E6;\">\n        \u003Cth>Groma\u003C\u002Fth>\n        \u003Cth>89.53\u003C\u002Fth>\n        \u003Cth>92.09\u003C\u002Fth>\n        \u003Cth>86.26\u003C\u002Fth>\n        \u003Cth>83.90\u003C\u002Fth>\n        \u003Cth>88.91\u003C\u002Fth>\n        \u003Cth>78.05\u003C\u002Fth>\n        \u003Cth>86.37\u003C\u002Fth>\n        \u003Cth>87.01\u003C\u002Fth>\n        \u003Cth>86.52\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## Installation\nClone the repository\n~~~\ngit clone https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FGroma.git\ncd Groma\n~~~\n\nCreate the conda environment and install dependencies\n~~~\nconda create -n groma python=3.9 -y\nconda activate groma\nconda install pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=11.8 -c pytorch -c nvidia\npip install --upgrade pip  # enable PEP 660 support\npip install -e .\n\ncd mmcv\nMMCV_WITH_OPS=1 pip install -e .\ncd ..\n~~~\n\nInstall falsh-attention for training\n~~~\npip install ninja\npip install flash-attn --no-build-isolation\n~~~\n\n\n## Model Weights\nTo play with Groma, please download the [model weights](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fgroma-7b-finetune) from huggingface. \n\nWe additionally provide pretrained checkpoints from intermediate training stages. \nYou can start from any point to customize training.\n\n| Training stage | Required checkpoints |\n|:--------------:|:--------------------:|\n| Detection pretraining | [DINOv2-L](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fdinov2-large) |\n| Alignment pretraining | [Vicuna-7b-v1.5](https:\u002F\u002Fhuggingface.co\u002Flmsys\u002Fvicuna-7b-v1.5), [Groma-det-pretrain](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fgroma-det-pretrain) |\n| Instruction finetuning | [Groma-7b-pretrain](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fgroma-7b-pretrain) |\n\n\n\n## Prepare Data\nWe provide instructions to download datasets used at different training stages of Groma, \nincluding [Groma Instruct](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FFoundationVision\u002Fgroma_instruct\u002F),\na 30k viusally grounded conversation dataset constructed with GPT-4V.\nYou don't have to download all of them unless you want to train Groma from scratch.\nPlease follow instructions in [DATA.md](docs\u002FDATA.md) to prepare datasets.\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth align=\"left\">Training stage\u003C\u002Fth>\n    \u003Cth align=\"left\">Data types\u003C\u002Fth>\n    \u003Cth align=\"left\">Datasets\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">Detection pretraining\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Detection\u003C\u002Ftd>\n    \u003Ctd align=\"left\">COCO, Objects365, OpenImages, V3Det, SA1B\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd rowspan=\"4\" align=\"left\">Alignment pretraining\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Image caption\u003C\u002Ftd>\n    \u003Ctd align=\"left\">ShareGPT-4V-PT\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">Grounded caption\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Flickr30k Entities\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">Region caption\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Visual Genome, RefCOCOg\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">REC\u003C\u002Ftd>\n    \u003Ctd align=\"left\">COCO, RefCOCO\u002Fg\u002F+, Grit-20m\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd rowspan=\"4\" align=\"left\">Instruction finetuning\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Grounded caption\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Flickr30k Entities\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">Region caption\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Visual Genome, RefCOCOg\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">REC\u003C\u002Ftd>\n    \u003Ctd align=\"left\">COCO, RefCOCO\u002Fg\u002F+\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">Instruction following\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Groma Instruct, LLaVA Instruct, ShareGPT-4V\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\n## Training\nFor detection pretraining, please run\n~~~\nbash scripts\u002Fdet_pretrain.sh {path_to_dinov2_ckpt} {output_dir}\n~~~\n\nFor alignment pretraining, please run\n~~~\nbash scripts\u002Fvl_pretrain.sh {path_to_vicuna_ckpt} {path_to_groma_det_pretrain_ckpt} {output_dir}\n~~~\n\nFor instruction finetuning, please run\n~~~\nbash scripts\u002Fvl_finetune.sh {path_to_groma_7b_pretrain_ckpt} {output_dir}\n~~~\n\n\n## Inference\nTo test on single image, you can run\n~~~\npython -m groma.eval.run_groma \\\n    --model-name {path_to_groma_7b_finetune} \\\n    --image-file {path_to_img} \\\n    --query {user_query} \\\n    --quant_type 'none' # support ['none', 'fp16', '8bit', '4bit'] for inference\n~~~\n\n\n## Evaluation\nFor evaluation, please refer to [EVAL.md](docs\u002FEVAL.md) for more details.\n\n\n## Citation\nIf you find this repo useful for your research, feel free to give us a star ⭐ or cite our paper:\n```\n@article{ma2024groma,\n  title={Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models},\n  author={Ma, Chuofan and Jiang, Yi and Wu, Jiannan and Yuan, Zehuan and Qi, Xiaojuan},\n  journal={arXiv preprint arXiv:2404.13013},\n  year={2024}\n}\n```\n\n\n## Acknowledgement\nGroma is built upon the awesome works \n[LLaVA](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA\u002F) and \n[GPT4ROI](https:\u002F\u002Fgithub.com\u002Fjshilong\u002FGPT4RoI).\n\n\n\n## LICENSE\nThis project is licensed under the Apache License 2.0 - \nsee the [LICENSE](LICENSE) file for details.\n","\u003Cdiv align=\"center\">\n\u003Ch1> Groma: 基于视觉定位的多模态助手 \u003C\u002Fh1>\n\n> [**Groma：用于多模态大语言模型视觉定位的本地化视觉分词**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.13013)               \n> **马超凡、江毅、吴建楠、袁泽寰、齐晓娟**\n> \n>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.13013\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Groma-red' alt='论文PDF'>\u003C\u002Fa>\n>\u003Ca href='https:\u002F\u002Fgroma-mllm.github.io\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F项目主页-Groma-green' alt='项目主页'>\u003C\u002Fa>\n>\u003Ca href='https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fgroma-7b-finetune'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-模型-blue'>\u003C\u002Fa>\n>\u003Ca href='https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FFoundationVision\u002Fgroma_instruct'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20 Face-数据集-yellow'>\u003C\u002Fa>\n\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_Groma_readme_6e1fdc77ba82.png' align=\"center\" width=\"80%\">\n\u003Cp align=\"left\">Groma 是一款具有卓越区域理解和视觉定位能力的多模态大语言模型。它可以接受用户定义的区域输入（边界框），并生成与视觉上下文紧密相关的长篇响应。\u003C\u002Fp>\n\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_Groma_readme_41ca3ac13032.png' align=\"center\" width=\"80%\">\n\u003Cp align=\"left\">Groma 提出了一种全新的基于视觉定位的多模态大语言模型范式。（a）用于定位的大语言模型（如 Kosmos-2、Shikra）；（b）用于定位的外部模块（如 Lisa）；以及（c）\u003Cb>用于定位的视觉分词器（Groma）\u003C\u002Fb>。\u003C\u002Fp>\n\n\u003C\u002Fdiv>\n\n\n## 目录\n- [安装](#installation)\n- [模型](#model-weights)\n- [数据](#prepare-data)\n- [训练](#training)\n- [推理](#inference)\n- [评估](#evaluation)\n\n\n\n## 性能\n在多模态大语言模型的指代表达理解（REC）基准测试中，Groma 的性能处于行业领先水平。\n\n\u003Ctable>\n    \u003Cthead>\n    \u003Ctr>\n        \u003Cth rowspan=\"2\">方法\u003C\u002Fth>\n        \u003Cth colspan=\"3\">RefCOCO\u003C\u002Fth>\n        \u003Cth colspan=\"3\">RefCOCO+\u003C\u002Fth>\n        \u003Cth colspan=\"2\">RefCOCOg\u003C\u002Fth>\n        \u003Cth rowspan=\"2\">平均\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n        \u003Cth>val\u003C\u002Fth>\n        \u003Cth>testA\u003C\u002Fth>\n        \u003Cth>testB\u003C\u002Fth>\n        \u003Cth>val\u003C\u002Fth>\n        \u003Cth>testA\u003C\u002Fth>\n        \u003Cth>testB\u003C\u002Fth>\n        \u003Cth>val\u003C\u002Fth>\n        \u003Cth>test\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n    \u003Ctr align=\"center\">\n        \u003Ctd>Shikra\u003C\u002Ftd>\n        \u003Ctd>87.01\u003C\u002Ftd>\n        \u003Ctd>90.61\u003C\u002Ftd>\n        \u003Ctd>80.24\u003C\u002Ftd>\n        \u003Ctd>81.60\u003C\u002Ftd>\n        \u003Ctd>87.36\u003C\u002Ftd>\n        \u003Ctd>72.12\u003C\u002Ftd>\n        \u003Ctd>82.27\u003C\u002Ftd>\n        \u003Ctd>82.19\u003C\u002Ftd>\n        \u003Ctd>82.93\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr align=\"center\">\n        \u003Ctd>Ferret\u003C\u002Ftd>\n        \u003Ctd>87.49\u003C\u002Ftd>\n        \u003Ctd>91.35\u003C\u002Ftd>\n        \u003Ctd>82.45\u003C\u002Ftd>\n        \u003Ctd>80.78\u003C\u002Ftd>\n        \u003Ctd>87.38\u003C\u002Ftd>\n        \u003Ctd>73.14\u003C\u002Ftd>\n        \u003Ctd>83.93\u003C\u002Ftd>\n        \u003Ctd>84.76\u003C\u002Ftd>\n        \u003Ctd>83.91\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr align=\"center\">\n        \u003Ctd>MiniGPT-v2\u003C\u002Ftd>\n        \u003Ctd>88.69\u003C\u002Ftd>\n        \u003Ctd>91.65\u003C\u002Ftd>\n        \u003Ctd>85.33\u003C\u002Ftd>\n        \u003Ctd>79.97\u003C\u002Ftd>\n        \u003Ctd>85.12\u003C\u002Ftd>\n        \u003Ctd>74.45\u003C\u002Ftd>\n        \u003Ctd>84.44\u003C\u002Ftd>\n        \u003Ctd>84.66\u003C\u002Ftd>\n        \u003Ctd>84.29\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr align=\"center\">\n        \u003Ctd>Qwen-VL\u003C\u002Ftd>\n        \u003Ctd>89.36\u003C\u002Ftd>\n        \u003Ctd>92.26\u003C\u002Ftd>\n        \u003Ctd>85.34\u003C\u002Ftd>\n        \u003Ctd>83.12\u003C\u002Ftd>\n        \u003Ctd>88.25\u003C\u002Ftd>\n        \u003Ctd>77.21\u003C\u002Ftd>\n        \u003Ctd>85.58\u003C\u002Ftd>\n        \u003Ctd>85.48\u003C\u002Ftd>\n        \u003Ctd>85.83\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"background-color: #ADD8E6;\">\n        \u003Cth>Groma\u003C\u002Fth>\n        \u003Cth>89.53\u003C\u002Fth>\n        \u003Cth>92.09\u003C\u002Fth>\n        \u003Cth>86.26\u003C\u002Fth>\n        \u003Cth>83.90\u003C\u002Fth>\n        \u003Cth>88.91\u003C\u002Fth>\n        \u003Ctd>78.05\u003C\u002Ftd>\n        \u003Ctd>86.37\u003C\u002Ftd>\n        \u003Ctd>87.01\u003C\u002Ftd>\n        \u003Ctd>86.52\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## 安装\n克隆仓库\n~~~\ngit clone https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FGroma.git\ncd Groma\n~~~\n\n创建 Conda 环境并安装依赖\n~~~\nconda create -n groma python=3.9 -y\nconda activate groma\nconda install pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=11.8 -c pytorch -c nvidia\npip install --upgrade pip  # 启用 PEP 660 支持\npip install -e .\n\ncd mmcv\nMMCV_WITH_OPS=1 pip install -e .\ncd ..\n~~~\n\n安装 FlashAttention 以进行训练\n~~~\npip install ninja\npip install flash-attn --no-build-isolation\n~~~\n\n\n## 模型权重\n要体验 Groma，请从 Hugging Face 下载 [模型权重](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fgroma-7b-finetune)。\n\n我们还提供了中间训练阶段的预训练检查点。您可以从任意阶段开始自定义训练。\n\n| 训练阶段 | 所需检查点 |\n|:--------------:|:--------------------:|\n| 检测预训练 | [DINOv2-L](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fdinov2-large) |\n| 对齐预训练 | [Vicuna-7b-v1.5](https:\u002F\u002Fhuggingface.co\u002Flmsys\u002Fvicuna-7b-v1.5), [Groma-det-pretrain](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fgroma-det-pretrain) |\n| 指令微调 | [Groma-7b-pretrain](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fgroma-7b-pretrain) |\n\n\n\n## 数据准备\n我们提供了下载 Groma 不同训练阶段所用数据集的说明，\n包括 [Groma Instruct](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FFoundationVision\u002Fgroma_instruct\u002F)，\n这是一个由 GPT-4V 构建的包含 3 万个视觉关联对话的数据集。\n您无需下载所有数据集，除非您想从头开始训练 Groma。\n请按照 [DATA.md](docs\u002FDATA.md) 中的说明准备数据集。\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth align=\"left\">训练阶段\u003C\u002Fth>\n    \u003Cth align=\"left\">数据类型\u003C\u002Fth>\n    \u003Cth align=\"left\">数据集\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">检测预训练\u003C\u002Ftd>\n    \u003Ctd align=\"left\">目标检测\u003C\u002Ftd>\n    \u003Ctd align=\"left\">COCO、Objects365、OpenImages、V3Det、SA1B\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd rowspan=\"4\" align=\"left\">对齐预训练\u003C\u002Ftd>\n    \u003Ctd align=\"left\">图像描述\u003C\u002Ftd>\n    \u003Ctd align=\"left\">ShareGPT-4V-PT\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">视觉关联描述\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Flickr30k Entities\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">区域描述\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Visual Genome、RefCOCOg\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">指代表达理解（REC）\u003C\u002Ftd>\n    \u003Ctd align=\"left\">COCO、RefCOCO\u002Fg\u002F+, Grit-20m\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd rowspan=\"4\" align=\"left\">指令微调\u003C\u002Ftd>\n    \u003Ctd align=\"left\">视觉关联描述\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Flickr30k Entities\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">区域描述\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Visual Genome、RefCOCOg\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">指代表达理解（REC）\u003C\u002Ftd>\n    \u003Ctd align=\"left\">COCO、RefCOCO\u002Fg\u002F+\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\">指令遵循\u003C\u002Ftd>\n    \u003Ctd align=\"left\">Groma Instruct、LLaVA Instruct、ShareGPT-4V\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\n## 训练\n对于检测预训练，请运行\n~~~\nbash scripts\u002Fdet_pretrain.sh {dinov2_ckpt路径} {输出目录}\n~~~\n\n对于对齐预训练，请运行\n~~~\nbash scripts\u002Fvl_pretrain.sh {vicuna_ckpt路径} {groma_det_pretrain_ckpt路径} {输出目录}\n~~~\n\n对于指令微调，请运行\n~~~\nbash scripts\u002Fvl_finetune.sh {groma_7b_pretrain_ckpt路径} {输出目录}\n~~~\n\n## 推理\n若需对单张图片进行测试，可运行以下命令：\n~~~\npython -m groma.eval.run_groma \\\n    --model-name {groma_7b微调模型路径} \\\n    --image-file {图片路径} \\\n    --query {用户问题} \\\n    --quant_type 'none' # 推理时支持 ['none', 'fp16', '8bit', '4bit']\n~~~\n\n\n## 评估\n有关评估的详细信息，请参阅 [EVAL.md](docs\u002FEVAL.md)。\n\n\n## 引用\n若您认为本仓库对您的研究有所帮助，欢迎给我们点赞 ⭐ 或引用我们的论文：\n```\n@article{ma2024groma,\n  title={Groma: 用于多模态大语言模型对齐的局部化视觉标记化},\n  author={Ma, Chuofan and Jiang, Yi and Wu, Jiannan and Yuan, Zehuan and Qi, Xiaojuan},\n  journal={arXiv预印本 arXiv:2404.13013},\n  year={2024}\n}\n```\n\n\n## 致谢\nGroma 基于以下优秀的工作构建而成：\n[LLaVA](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA\u002F) 和 \n[GPT4ROI](https:\u002F\u002Fgithub.com\u002Fjshilong\u002FGPT4RoI)。\n\n\n\n## 许可证\n本项目采用 Apache License 2.0 许可证授权——详情请参阅 [LICENSE](LICENSE) 文件。","# Groma 快速上手指南\n\nGroma 是一款具备卓越区域理解与视觉定位能力的多模态大语言模型（MLLM）。它支持用户自定义的区域输入（边界框），并能生成与视觉上下文紧密关联的长文本回复。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu)\n*   **Python 版本**: 3.9\n*   **GPU**: 支持 CUDA 11.8 的 NVIDIA 显卡\n*   **PyTorch 版本**: 2.1.0\n*   **依赖管理**: Conda\n\n> **注意**：国内开发者若遇到网络连接问题，建议在 `pip` 和 `conda` 命令中配置清华源或阿里源以加速下载。\n\n## 安装步骤\n\n### 1. 克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FGroma.git\ncd Groma\n```\n\n### 2. 创建并激活 Conda 环境\n```bash\nconda create -n groma python=3.9 -y\nconda activate groma\n```\n\n### 3. 安装核心依赖\n安装指定版本的 PyTorch 及相关组件（建议使用官方源或国内镜像）：\n```bash\nconda install pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=11.8 -c pytorch -c nvidia\n```\n\n升级 pip 并安装项目基础依赖：\n```bash\npip install --upgrade pip\npip install -e .\n```\n\n安装 MMCV 组件：\n```bash\ncd mmcv\nMMCV_WITH_OPS=1 pip install -e .\ncd ..\n```\n\n### 4. 安装训练加速组件\n为了支持高效训练，需安装 `flash-attn`：\n```bash\npip install ninja\npip install flash-attn --no-build-isolation\n```\n\n## 基本使用\n\n### 1. 下载模型权重\n从 Hugging Face 下载微调后的模型权重。\n*   **模型地址**: [FoundationVision\u002Fgroma-7b-finetune](https:\u002F\u002Fhuggingface.co\u002FFoundationVision\u002Fgroma-7b-finetune)\n*   下载后记下本地路径，例如：`\u002Fpath\u002Fto\u002Fgroma-7b-finetune`\n\n> **提示**：国内用户可使用 Hugging Face 镜像站（如 `hf-mirror.com`）或通过魔搭社区（ModelScope）查找是否有同步资源以加速下载。\n\n### 2. 运行推理示例\n使用以下命令对单张图片进行提问测试。该命令支持多种量化类型（`none`, `fp16`, `8bit`, `4bit`）。\n\n```bash\npython -m groma.eval.run_groma \\\n    --model-name \u002Fpath\u002Fto\u002Fgroma-7b-finetune \\\n    --image-file \u002Fpath\u002Fto\u002Fyour\u002Fimage.jpg \\\n    --query \"请描述图中红色框选区域内的物体\" \\\n    --quant_type 'none'\n```\n\n**参数说明：**\n*   `--model-name`: 替换为您下载的模型权重文件夹路径。\n*   `--image-file`: 替换为您要测试的图片路径。\n*   `--query`: 您的自然语言提问，可包含对特定区域的描述。\n*   `--quant_type`: 推理精度模式，显存有限时可尝试 `'fp16'` 或 `'4bit'`。","某电商平台的视觉审核团队正在处理海量商品详情页，需要快速定位并核实图片中特定区域（如标签、瑕疵或违规文字）的具体内容。\n\n### 没有 Groma 时\n- **定位与理解割裂**：传统模型只能泛泛描述整图内容，无法精准回答“左上角红色标签写了什么”，需人工反复截图放大确认。\n- **交互流程繁琐**：若要检测特定区域，必须先调用目标检测模型生成坐标，再将裁剪图送入识别模型，多步骤串联导致延迟高且易累积误差。\n- **细粒度信息丢失**：通用多模态大模型在处理小物体或密集文本时，往往因全局注意力机制而忽略局部细节，导致关键合规信息漏检。\n- **开发维护成本高**：团队需分别维护检测、识别和语言理解三套独立系统，接口对齐困难，迭代新规则时耗时费力。\n\n### 使用 Groma 后\n- **原生区域 grounding 能力**：Groma 支持直接输入用户定义的边界框（Box），能立即针对该区域生成精准的长文本描述，实现“指哪打哪”。\n- **端到端高效推理**：凭借独特的局部视觉 Tokenization 技术，Groma 在单一模型内同时完成定位与语义理解，大幅降低响应延迟，提升审核吞吐量。\n- **极致细粒度感知**：在 RefCOCO 等基准测试中刷新 SOTA 记录，即使面对微小瑕疵或复杂背景下的文字，也能准确关联视觉上下文并输出正确结论。\n- **架构简化易扩展**：统一的模型范式替代了复杂的流水线，开发人员只需微调指令即可适应新的审核标准，显著降低运维门槛。\n\nGroma 通过将视觉定位能力内化为大模型的原生技能，彻底解决了多模态任务中“看不清、找不准”的痛点，让机器真正具备了像人类一样聚焦细节的智能审核能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFoundationVision_Groma_6e1fdc77.png","FoundationVision","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FFoundationVision_08beeedc.jpg","Bytedance's opensource FoundationVision models",null,"https:\u002F\u002Fgithub.com\u002FFoundationVision",[78,82,86,90,94,97,100,104,107,110],{"name":79,"color":80,"percentage":81},"Python","#3572A5",75.1,{"name":83,"color":84,"percentage":85},"C++","#f34b7d",15.9,{"name":87,"color":88,"percentage":89},"Cuda","#3A4E3A",8.5,{"name":91,"color":92,"percentage":93},"JavaScript","#f1e05a",0.1,{"name":95,"color":96,"percentage":93},"HTML","#e34c26",{"name":98,"color":99,"percentage":93},"Shell","#89e051",{"name":101,"color":102,"percentage":103},"C","#555555",0,{"name":105,"color":106,"percentage":103},"CSS","#663399",{"name":108,"color":109,"percentage":103},"Batchfile","#C1F12E",{"name":111,"color":112,"percentage":103},"Makefile","#427819",586,45,"2026-04-08T08:46:54","Apache-2.0",4,"Linux","必需 NVIDIA GPU，安装命令指定 pytorch-cuda=11.8，需支持 Flash Attention","未说明",{"notes":122,"python":123,"dependencies":124},"项目基于 LLaVA 和 GPT4RoI 构建。安装时需先编译 mmcv (MMCV_WITH_OPS=1) 并安装 flash-attn (需 ninja)。推理支持 none, fp16, 8bit, 4bit 量化。训练分为检测预训练、对齐预训练和指令微调三个阶段，需分别下载对应的检查点（如 DINOv2-L, Vicuna-7b-v1.5 等）。","3.9",[125,126,127,128,129,130],"pytorch==2.1.0","torchvision==0.16.0","torchaudio==2.1.0","mmcv","flash-attn","ninja",[14,132,35],"其他",[134,135,136,137,138,139,140,141,142],"grounding","llm","mllm","large-language-models","foundation-models","llama","llama2","multimodal","vision-language-model","2026-03-27T02:49:30.150509","2026-04-12T07:51:55.262383",[146,151,156,161,166,171],{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},30434,"如何在显存较小（如 24GB）的设备上运行或加载模型？","虽然官方主要测试了大显存环境，但可以尝试使用 Hugging Face 原生的 `load_checkpoint_and_dispatch` 函数来加载模型，该功能可能支持将模型分层加载到可用显存中。此外，也可以研究是否能在推理阶段使用 FSDP（Fully Sharded Data Parallel）来降低显存占用，尽管这需要额外的配置尝试。","https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FGroma\u002Fissues\u002F8",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},30435,"运行时报错 'local variable sentencepiece_model_pb2 referenced before assignment' 如何解决？","该问题通常源于 `transformers` 库与 SentencePiece 的兼容性冲突。建议尝试在加载 Tokenizer 时将 `use_fast` 参数设置为 `True`。例如，修改代码为：`tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)`。如果问题依旧，请检查 `transformers` 版本是否与项目要求一致。","https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FGroma\u002Fissues\u002F17",{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},30436,"在 RefCoco 数据集上微调后效果不佳或评估结果异常怎么办？","这通常是由超参数 `nms_thres` 配置错误导致的。请确保将该参数设置为 `0.6` 而不是 `0.0`。维护者已在最新提交中修复了此默认值，请拉取最新代码重试。如果问题仍然存在，请确认是否使用了正确的微调后权重进行评估。","https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FGroma\u002Fissues\u002F6",{"id":162,"question_zh":163,"answer_zh":164,"source_url":165},30437,"使用 8 张 A100 (40GB) 训练时出现显存溢出（OOM）或精度转换错误怎么办？","首先，请确保安装的 `torch` 和 `transformers` 版本与项目 `pyproject.toml` 中指定的版本完全一致，版本不兼容会导致混合精度训练失败。其次，由于底层的 `MultiScaleDeformableAttention` 不支持 bf16，系统会自动将其转换为 fp32，这是正常现象。如果仍报错，可尝试显式使用 `@force_fp32` 装饰器强制转换相关模块精度，或检查脚本中是否正确开启了 `--bf16 True` 和 `--tf32 True`。","https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FGroma\u002Fissues\u002F19",{"id":167,"question_zh":168,"answer_zh":169,"source_url":170},30438,"手动下载模型权重后，微调脚本仍然尝试从网络下载权重怎么办？","这通常是因为本地路径未被正确识别或存在依赖包安装问题。请检查是否成功安装了特定版本的 `mmcv`（该项目继承自 GPT4ROI，通常依赖 `mmcv==1.4.7`）。如果 `mmcv` 安装失败或版本不对，可能导致模型加载逻辑回退到默认的网络下载行为。请验证本地权重文件夹路径是否正确传递给脚本，并确认环境中 `mmcv` 文件夹与包的关系正常。","https:\u002F\u002Fgithub.com\u002FFoundationVision\u002FGroma\u002Fissues\u002F3",{"id":172,"question_zh":173,"answer_zh":174,"source_url":155},30439,"运行时提示 'bitsandbytes compiled without GPU support' 是什么意思？","该警告表示当前安装的 `bitsandbytes` 库未编译 GPU 支持，因此无法使用 8-bit 优化器或量化功能。如果您不需要量化（即设置 `--quant_type 'none'`），可以忽略此警告继续运行。如果需要量化功能，请重新编译或安装支持 CUDA 的 `bitsandbytes` 版本。",[]]