[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-ictnlp--LLaVA-Mini":3,"similar-ictnlp--LLaVA-Mini":85},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":15,"owner_avatar_url":16,"owner_bio":17,"owner_company":18,"owner_location":18,"owner_email":19,"owner_twitter":18,"owner_website":20,"owner_url":21,"languages":22,"stars":43,"forks":44,"last_commit_at":45,"license":46,"difficulty_score":47,"env_os":48,"env_gpu":49,"env_ram":50,"env_deps":51,"category_tags":59,"github_topics":65,"view_count":79,"oss_zip_url":18,"oss_zip_packed_at":18,"status":80,"created_at":81,"updated_at":82,"faqs":83,"releases":84},6240,"ictnlp\u002FLLaVA-Mini","LLaVA-Mini","LLaVA-Mini is a unified large multimodal model (LMM) that can support the understanding of images, high-resolution images, and videos in an efficient manner. ","LLaVA-Mini 是一款高效统一的大型多模态模型，专为图像、高分辨率图片及视频的理解而设计。它核心解决了传统多模态模型在处理视觉任务时计算量大、显存占用高以及响应延迟长的痛点。通过独特的技术架构，LLaVA-Mini 创新性地将每张图像的视觉信息压缩至仅用\"1 个视觉令牌（Vision Token）”表示，相比传统方法所需的数百个令牌，实现了惊人的数据压缩率。\n\n这一突破带来了显著的性能提升：计算开销降低 77%，响应延迟从 100 毫秒缩减至 40 毫秒，单图显存占用更是从 360MB 骤降至 0.6MB。这使得在普通消费级显卡（如 24GB 显存）上处理长达 3 小时或超过 1 万帧的视频成为可能，同时在理解能力上仍保持了与主流模型相当的水准。\n\nLLaVA-Mini 非常适合 AI 研究人员探索多模态模型的可解释性与效率平衡，也适用于开发者构建低延迟、低成本的视觉应用服务。对于需要在有限硬件资源下部署大规模视觉分析任务的团队，它提供了一个极具价值的开源解决方案。","# LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2501.03895-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.03895)\n[![model](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20huggingface%20-llava--mini--llama--3.1--8b-orange.svg)](https:\u002F\u002Fhuggingface.co\u002FICTNLP\u002Fllava-mini-llama-3.1-8b)\n[![Hits](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_26694c3d537f.png)](https:\u002F\u002Fgithub.com\u002Fictnlp\u002FLLaVA-Mini)\n\n> **[Shaolei Zhang](https:\u002F\u002Fzhangshaolei1998.github.io\u002F), [Qingkai Fang](https:\u002F\u002Ffangqingkai.github.io\u002F), [Zhe Yang](https:\u002F\u002Fnlp.ict.ac.cn\u002Fyjdw\u002Fxs\u002Fssyjs\u002F202210\u002Ft20221020_52708.html), [Yang Feng*](https:\u002F\u002Fpeople.ucas.edu.cn\u002F~yangfeng?language=en)**\n\n\nLLaVA-Mini is a unified large multimodal model that can support the understanding of images, high-resolution images, and videos in an efficient manner. Guided by the interpretability within LMM, LLaVA-Mini significantly improves efficiency while ensuring vision capabilities. [Model](https:\u002F\u002Fhuggingface.co\u002FICTNLP\u002Fllava-mini-llama-3.1-8b) and [demo](#-demo) of LLaVA-Mini are available now!\n\n> [!Note]\n> LLaVA-Mini only requires **1 token** to represent each image, which improves the efficiency of image and video understanding, including:\n> - **Computational effort**: 77% FLOPs reduction\n> - **Response latency**: reduce from 100 milliseconds to 40 milliseconds\n> - **VRAM memory usage**: reduce from 360 MB\u002Fimage to 0.6 MB\u002Fimage, support 3-hour video processing\n\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_868f38ca9766.png\" alt=\"performance\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n💡**Highlight**:\n1. **Good Performance**: LLaVA-Mini achieves performance comparable to LLaVA-v1.5 while using only 1 vision token instead of 576 (compression rate of 0.17%).\n2. **High Efficiency**: LLaVA-Mini can reduce FLOPs by 77%, deliver low-latency responses within 40 milliseconds, and process over 10,000 frames of video on the GPU hardware with 24GB of memory.\n3. **Insights**: To develop LLaVA-Mini, which reduces vision tokens while maintaining visual understanding, we conduct a preliminary analysis to explore how large multimodal models (LMMs) process visual tokens. Please refer to our [paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.03895) for a detailed analysis and our conclusions.\n\n## 🖥 Demo\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_9be767caaeb0.gif\" alt=\"llava_mini\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n- Download LLaVA-Mini model from [here](https:\u002F\u002Fhuggingface.co\u002FICTNLP\u002Fllava-mini-llama-3.1-8b).\n\n- Run these scripts and Interact with LLaVA-Mini in your browser:\n\n  ```bash\n  # Launch a controller\n  python -m llavamini.serve.controller --host 0.0.0.0 --port 10000 &\n\n  # Build the API of LLaVA-Mini, if the VRAM memory is less than 20GB, try using --load-8bit\n  CUDA_VISIBLE_DEVICES=0  python -m llavamini.serve.model_worker --host 0.0.0.0 --controller http:\u002F\u002Flocalhost:10000 --port 40000 --worker http:\u002F\u002Flocalhost:40000 --model-path ICTNLP\u002Fllava-mini-llama-3.1-8b --model-name llava-mini &\n\n  # Start the interactive interface\n  python -m llavamini.serve.gradio_web_server --controller http:\u002F\u002Flocalhost:10000 --model-list-mode reload  --port 7860\n  ```\n\n## 🔥 Quick Start\n### Requirements\n- Install packages:\n\n  ```bash\n  conda create -n llavamini python=3.10 -y\n  conda activate llavamini\n  pip install -e .\n  pip install -e \".[train]\"\n  pip install flash-attn --no-build-isolation\n  ```\n\n### Command Interaction\n- Image understanding, using `--image-file`.\n- If the VRAM memory is less than 20GB, try using `--load-8bit`.\n\n  ```bash\n  # Image Understanding\n  CUDA_VISIBLE_DEVICES=0 python llavamini\u002Feval\u002Frun_llava_mini.py \\\n      --model-path  ICTNLP\u002Fllava-mini-llama-3.1-8b \\\n      --image-file llavamini\u002Fserve\u002Fexamples\u002Fbaby_cake.png \\\n      --conv-mode llava_llama_3_1 --model-name \"llava-mini\" \\\n      --query \"What's the text on the cake?\"\n  ```\n\n- Video understanding, using `--video-file`:\n\n  ```bash\n  # Video Understanding\n  CUDA_VISIBLE_DEVICES=0 python llavamini\u002Feval\u002Frun_llava_mini.py \\\n      --model-path  ICTNLP\u002Fllava-mini-llama-3.1-8b \\\n      --video-file llavamini\u002Fserve\u002Fexamples\u002Ffifa.mp4 \\\n      --conv-mode llava_llama_3_1 --model-name \"llava-mini\" \\\n      --query \"What happened in this video?\"\n  ```\n\n### Reproduction and Evaluation\n\n- Refer to [Evaluation.md](docs\u002FEvaluation.md) for the evaluation of LLaVA-Mini on image\u002Fvideo benchmarks.\n\n### Cases\n- LLaVA-Mini achieves high-quality image understanding and video understanding.\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_e70a97a0f5bf.png\" alt=\"case1\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n\u003Cdetails>\n\u003Csummary>More cases\u003C\u002Fsummary>\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_18eec91a0480.png\" alt=\"case2\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_90b73bda7e1e.png\" alt=\"case3\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_e053acd94035.png\" alt=\"case4\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n\u003C\u002Fdetails>\n\n- LLaVA-Mini dynamically compresses image to capture important visual information (brighter areas are more heavily weighted during compression).\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_c4a7a4b57cde.png\" alt=\"compression\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n## 🤝 Acknowledgement\n- [LLaVA](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA): LLaVA-Mini is built upon LLaVA codebase, a large language and vision assistant.\n- [Video-ChatGPT](https:\u002F\u002Fgithub.com\u002Fmbzuai-oryx\u002FVideo-ChatGPT): The training of LLaVA-Mini involves the video instruction data provided by Video-ChatGPT.\n- [LLaVA-OneVision](https:\u002F\u002Fgithub.com\u002FLLaVA-VL\u002FLLaVA-NeXT): The training of LLaVA-Mini involves the image instruction data provided by LLaVA-OneVision.\n\n## 🖋Citation\n\nIf this repository is useful for you, please cite as:\n\n```\n@misc{llavamini,\n      title={LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token}, \n      author={Shaolei Zhang and Qingkai Fang and Zhe Yang and Yang Feng},\n      year={2025},\n      eprint={2501.03895},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.03895}, \n}\n```\n\nIf you have any questions, please feel free to submit an issue or contact `zhangshaolei20z@ict.ac.cn`.\n","# LLaVA-Mini：仅用一个视觉令牌的高效图像与视频大型多模态模型\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2501.03895-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.03895)\n[![model](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20huggingface%20-llava--mini--llama--3.1--8b-orange.svg)](https:\u002F\u002Fhuggingface.co\u002FICTNLP\u002Fllava-mini-llama-3.1-8b)\n[![Hits](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_26694c3d537f.png)](https:\u002F\u002Fgithub.com\u002Fictnlp\u002FLLaVA-Mini)\n\n> **[张绍磊](https:\u002F\u002Fzhangshaolei1998.github.io\u002F)、[方庆凯](https:\u002F\u002Ffangqingkai.github.io\u002F)、[杨哲](https:\u002F\u002Fnlp.ict.ac.cn\u002Fyjdw\u002Fxs\u002Fssyjs\u002F202210\u002Ft20221020_52708.html)、[冯洋*](https:\u002F\u002Fpeople.ucas.edu.cn\u002F~yangfeng?language=en)**\n\n\nLLaVA-Mini 是一款统一的大型多模态模型，能够以高效的方式支持对图像、高分辨率图像和视频的理解。在多模态大模型（LMM）可解释性的指导下，LLaVA-Mini 在确保视觉能力的同时显著提升了效率。LLaVA-Mini 的 [模型](https:\u002F\u002Fhuggingface.co\u002FICTNLP\u002Fllava-mini-llama-3.1-8b) 和 [演示](#-demo) 现已开放！\n\n> [!Note]\n> LLaVA-Mini 每张图像仅需 **1 个令牌** 来表示，从而提高了图像和视频理解的效率，具体体现在：\n> - **计算量**：减少 77% 的 FLOPs\n> - **响应延迟**：从 100 毫秒缩短至 40 毫秒\n> - **显存占用**：从每张图像 360 MB 降至 0.6 MB，支持处理长达 3 小时的视频\n\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_868f38ca9766.png\" alt=\"performance\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n💡**亮点**：\n1. **性能优异**：LLaVA-Mini 在仅使用 1 个视觉令牌（压缩率为 0.17%）的情况下，性能与 LLaVA-v1.5 相当。\n2. **高效性**：LLaVA-Mini 可将 FLOPs 减少 77%，实现 40 毫秒以内的低延迟响应，并在配备 24GB 显存的 GPU 硬件上处理超过 10,000 帧的视频。\n3. **洞察**：为了开发出在减少视觉令牌的同时仍能保持视觉理解能力的 LLaVA-Mini，我们进行了初步分析，探讨了多模态大模型（LMM）如何处理视觉令牌。详细分析及结论请参阅我们的 [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.03895)。\n\n## 🖥 演示\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_9be767caaeb0.gif\" alt=\"llava_mini\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n- 从 [这里](https:\u002F\u002Fhuggingface.co\u002FICTNLP\u002Fllava-mini-llama-3.1-8b) 下载 LLaVA-Mini 模型。\n\n- 运行以下脚本，在浏览器中与 LLaVA-Mini 互动：\n\n  ```bash\n  # 启动控制器\n  python -m llavamini.serve.controller --host 0.0.0.0 --port 10000 &\n\n  # 构建 LLaVA-Mini 的 API，若显存不足 20GB，请尝试使用 --load-8bit\n  CUDA_VISIBLE_DEVICES=0  python -m llavamini.serve.model_worker --host 0.0.0.0 --controller http:\u002F\u002Flocalhost:10000 --port 40000 --worker http:\u002F\u002Flocalhost:40000 --model-path ICTNLP\u002Fllava-mini-llama-3.1-8b --model-name llava-mini &\n\n  # 启动交互界面\n  python -m llavamini.serve.gradio_web_server --controller http:\u002F\u002Flocalhost:10000 --model-list-mode reload  --port 7860\n  ```\n\n## 🔥 快速入门\n### 需求\n- 安装依赖包：\n\n  ```bash\n  conda create -n llavamini python=3.10 -y\n  conda activate llavamini\n  pip install -e .\n  pip install -e \".[train]\"\n  pip install flash-attn --no-build-isolation\n  ```\n\n### 命令交互\n- 图像理解，使用 `--image-file`。\n- 若显存不足 20GB，请尝试使用 `--load-8bit`。\n\n  ```bash\n  # 图像理解\n  CUDA_VISIBLE_DEVICES=0 python llavamini\u002Feval\u002Frun_llava_mini.py \\\n      --model-path  ICTNLP\u002Fllava-mini-llama-3.1-8b \\\n      --image-file llavamini\u002Fserve\u002Fexamples\u002Fbaby_cake.png \\\n      --conv-mode llava_llama_3_1 --model-name \"llava-mini\" \\\n      --query \"蛋糕上的文字是什么？\"\n  ```\n\n- 视频理解，使用 `--video-file`：\n\n  ```bash\n  # 视频理解\n  CUDA_VISIBLE_DEVICES=0 python llavamini\u002Feval\u002Frun_llava_mini.py \\\n      --model-path  ICTNLP\u002Fllava-mini-llama-3.1-8b \\\n      --video-file llavamini\u002Fserve\u002Fexamples\u002Ffifa.mp4 \\\n      --conv-mode llava_llama_3_1 --model-name \"llava-mini\" \\\n      --query \"这段视频里发生了什么？\"\n  ```\n\n### 复现与评估\n\n- 关于 LLaVA-Mini 在图像\u002F视频基准测试上的评估，请参阅 [Evaluation.md](docs\u002FEvaluation.md)。\n\n### 案例\n- LLaVA-Mini 能够实现高质量的图像理解和视频理解。\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_e70a97a0f5bf.png\" alt=\"case1\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n\u003Cdetails>\n\u003Csummary>更多案例\u003C\u002Fsummary>\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_18eec91a0480.png\" alt=\"case2\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_90b73bda7e1e.png\" alt=\"case3\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_e053acd94035.png\" alt=\"case4\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n\u003C\u002Fdetails>\n\n- LLaVA-Mini 会动态压缩图像，以捕捉重要的视觉信息（压缩过程中亮度较高的区域权重更大）。\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_readme_c4a7a4b57cde.png\" alt=\"compression\" style=\"width: 100%; min-width: 300px; display: block; margin: auto;\">\n\u003C\u002Fp>\n\n## 🤝 致谢\n- [LLaVA](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA)：LLaVA-Mini 基于 LLaVA 代码库构建，LLaVA 是一款大型语言与视觉助手。\n- [Video-ChatGPT](https:\u002F\u002Fgithub.com\u002Fmbzuai-oryx\u002FVideo-ChatGPT)：LLaVA-Mini 的训练使用了 Video-ChatGPT 提供的视频指令数据。\n- [LLaVA-OneVision](https:\u002F\u002Fgithub.com\u002FLLaVA-VL\u002FLLaVA-NeXT)：LLaVA-Mini 的训练还使用了 LLaVA-OneVision 提供的图像指令数据。\n\n## 🖋 引用\n\n若本仓库对您有所帮助，请按以下方式引用：\n\n```\n@misc{llavamini,\n      title={LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token}, \n      author={Shaolei Zhang and Qingkai Fang and Zhe Yang and Yang Feng},\n      year={2025},\n      eprint={2501.03895},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.03895}, \n}\n```\n\n如有任何问题，请随时提交 issue 或联系 `zhangshaolei20z@ict.ac.cn`。","# LLaVA-Mini 快速上手指南\n\nLLaVA-Mini 是一个高效的多模态大模型，仅需 **1 个视觉 Token** 即可表示整张图像或视频帧。相比传统方法，它在保持同等理解能力的前提下，降低了 77% 的计算量，将响应延迟从 100ms 降至 40ms，并将显存占用从每张图 360MB 大幅降低至 0.6MB，支持长视频处理。\n\n## 环境准备\n\n- **操作系统**: Linux (推荐 Ubuntu)\n- **Python 版本**: 3.10\n- **GPU 要求**: 支持 CUDA 的 NVIDIA 显卡\n  - 基础推理：建议显存 ≥ 8GB\n  - 完整功能\u002F视频处理：建议显存 ≥ 24GB\n  - 若显存 \u003C 20GB，可使用 `--load-8bit` 参数进行量化加载\n- **依赖库**: `flash-attn`, `torch`, `transformers` 等\n\n## 安装步骤\n\n1. **创建并激活 Conda 环境**\n   ```bash\n   conda create -n llavamini python=3.10 -y\n   conda activate llavamini\n   ```\n\n2. **安装项目依赖**\n   ```bash\n   pip install -e .\n   pip install -e \".[train]\"\n   ```\n\n3. **安装 Flash Attention**\n   > 注意：需确保已安装对应的 CUDA 版本和 PyTorch 版本\n   ```bash\n   pip install flash-attn --no-build-isolation\n   ```\n   *(国内用户如遇下载慢，可添加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple` 使用清华源)*\n\n## 基本使用\n\n### 1. 命令行交互（图像理解）\n\n以下示例演示如何对单张图片进行问答。若显存较小，请添加 `--load-8bit` 参数。\n\n```bash\nCUDA_VISIBLE_DEVICES=0 python llavamini\u002Feval\u002Frun_llava_mini.py \\\n    --model-path ICTNLP\u002Fllava-mini-llama-3.1-8b \\\n    --image-file llavamini\u002Fserve\u002Fexamples\u002Fbaby_cake.png \\\n    --conv-mode llava_llama_3_1 --model-name \"llava-mini\" \\\n    --query \"What's the text on the cake?\"\n```\n\n### 2. 命令行交互（视频理解）\n\nLLaVA-Mini 支持直接输入视频文件进行分析。\n\n```bash\nCUDA_VISIBLE_DEVICES=0 python llavamini\u002Feval\u002Frun_llava_mini.py \\\n    --model-path ICTNLP\u002Fllava-mini-llama-3.1-8b \\\n    --video-file llavamini\u002Fserve\u002Fexamples\u002Ffifa.mp4 \\\n    --conv-mode llava_llama_3_1 --model-name \"llava-mini\" \\\n    --query \"What happened in this video?\"\n```\n\n### 3. 启动 Web 演示界面\n\n如需在浏览器中进行交互式对话，可启动本地 Gradio 服务：\n\n```bash\n# 1. 启动控制器\npython -m llavamini.serve.controller --host 0.0.0.0 --port 10000 &\n\n# 2. 启动模型工作节点 (显存不足时添加 --load-8bit)\nCUDA_VISIBLE_DEVICES=0 python -m llavamini.serve.model_worker \\\n    --host 0.0.0.0 --controller http:\u002F\u002Flocalhost:10000 \\\n    --port 40000 --worker http:\u002F\u002Flocalhost:40000 \\\n    --model-path ICTNLP\u002Fllava-mini-llama-3.1-8b \\\n    --model-name llava-mini &\n\n# 3. 启动网页界面\npython -m llavamini.serve.gradio_web_server \\\n    --controller http:\u002F\u002Flocalhost:10000 \\\n    --model-list-mode reload --port 7860\n```\n启动完成后，在浏览器访问 `http:\u002F\u002Flocalhost:7860` 即可使用。","某安防监控团队需要在配备单张 24GB 显存显卡的服务器上，实时分析长达 3 小时的高清仓库监控视频，以自动识别违规操作并生成摘要报告。\n\n### 没有 LLaVA-Mini 时\n- **显存迅速爆满**：传统多模态模型处理视频需将每帧图像压缩为数百个视觉 Token，导致显存占用高达每帧 360MB，根本无法加载长视频序列。\n- **响应延迟过高**：巨大的计算量使得单帧处理耗时超过 100 毫秒，无法满足实时预警需求，视频分析只能被迫降帧或离线批处理。\n- **算力成本昂贵**：为了跑通流程，团队不得不租用多卡集群或高端 A100\u002FH100 服务器，大幅推高了部署和推理成本。\n- **细节丢失严重**：为了适配显存限制，不得不将高分辨率视频强行缩小分辨率，导致远处的小物体（如未戴安全帽）无法被识别。\n\n### 使用 LLaVA-Mini 后\n- **显存占用极低**：LLaVA-Mini 创新性地将每张图像压缩为仅 1 个视觉 Token，显存占用骤降至每帧 0.6MB，轻松在单卡上完整加载 3 小时视频流。\n- **毫秒级实时响应**：计算开销降低 77%，单帧响应时间缩短至 40 毫秒以内，实现了对监控画面的流畅实时分析与即时报警。\n- **硬件门槛大幅降低**：仅需消费级或入门级企业显卡（如 RTX 3090\u002F4090）即可处理万帧以上视频，无需昂贵的多卡集群。\n- **高分辨率无损理解**：得益于高效的架构，LLaVA-Mini 可直接处理高分辨率输入，精准识别画面远处的细微违规行为，保持与大型模型相当的准确率。\n\nLLaVA-Mini 通过将视觉信息极致压缩为单个 Token，彻底打破了长视频理解对高昂算力和显存的依赖，让高清视频智能分析在边缘设备上成为可能。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fictnlp_LLaVA-Mini_868f38ca.png","ictnlp","ICTNLP","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fictnlp_de5b5ac5.jpg","Natural Language Processing Group, Institute of Computing Technology, Chinese Academy of Sciences",null,"ict_nlp@ict.ac.cn","http:\u002F\u002Fnlp.ict.ac.cn","https:\u002F\u002Fgithub.com\u002Fictnlp",[23,27,31,35,39],{"name":24,"color":25,"percentage":26},"Python","#3572A5",88.4,{"name":28,"color":29,"percentage":30},"Shell","#89e051",7.4,{"name":32,"color":33,"percentage":34},"JavaScript","#f1e05a",2.2,{"name":36,"color":37,"percentage":38},"HTML","#e34c26",1.7,{"name":40,"color":41,"percentage":42},"CSS","#663399",0.4,569,32,"2026-04-08T12:42:10","Apache-2.0",3,"Linux","必需 NVIDIA GPU。显存需求：推荐 24GB（可处理超 10,000 帧视频）；若显存小于 20GB，需使用 --load-8bit 参数；单图显存占用仅 0.6MB。CUDA 版本未明确说明（需支持 flash-attn）。","未说明",{"notes":52,"python":53,"dependencies":54},"1. 建议使用 conda 创建名为 'llavamini' 的虚拟环境。2. 安装 flash-attn 时需添加 --no-build-isolation 参数。3. 该模型核心优势是高效性，每张图像仅需 1 个视觉 token，显著降低计算量（减少 77% FLOPs）和延迟（40ms）。4. 支持图像、高分辨率图像及长视频（如 3 小时视频）的理解。5. 运行 Demo 或推理时，若显存不足 20GB，务必在命令中加入 --load-8bit 标志。","3.10",[55,56,57,58],"flash-attn","torch (隐含)","transformers (隐含)","gradio (隐含)",[60,61,62,63,64],"开发框架","其他","图像","视频","语言模型",[66,67,68,69,70,71,72,73,74,75,76,77,78],"efficient","gpt4o","gpt4v","large-language-models","large-multimodal-models","llava","multimodal","video","vision","vision-language-model","visual-instruction-tuning","llama","multimodal-large-language-models",2,"ready","2026-03-27T02:49:30.150509","2026-04-10T20:32:46.895320",[],[],[86,96,104,112,120,129],{"id":87,"name":88,"github_repo":89,"description_zh":90,"stars":91,"difficulty_score":47,"last_commit_at":92,"category_tags":93,"status":80},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,"2026-04-06T06:32:30",[94,60,62,95],"Agent","数据工具",{"id":97,"name":98,"github_repo":99,"description_zh":100,"stars":101,"difficulty_score":47,"last_commit_at":102,"category_tags":103,"status":80},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[60,62,94],{"id":105,"name":106,"github_repo":107,"description_zh":108,"stars":109,"difficulty_score":79,"last_commit_at":110,"category_tags":111,"status":80},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",149489,"2026-04-10T11:32:46",[60,94,64],{"id":113,"name":114,"github_repo":115,"description_zh":116,"stars":117,"difficulty_score":79,"last_commit_at":118,"category_tags":119,"status":80},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[60,62,94],{"id":121,"name":122,"github_repo":123,"description_zh":124,"stars":125,"difficulty_score":79,"last_commit_at":126,"category_tags":127,"status":80},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[128,94,62,60],"插件",{"id":130,"name":131,"github_repo":132,"description_zh":133,"stars":134,"difficulty_score":79,"last_commit_at":135,"category_tags":136,"status":80},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[128,60]]