[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-SkyworkAI--Vitron":3,"tool-SkyworkAI--Vitron":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159636,2,"2026-04-17T23:33:34",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":103,"forks":104,"last_commit_at":105,"license":76,"difficulty_score":106,"env_os":107,"env_gpu":108,"env_ram":109,"env_deps":110,"category_tags":123,"github_topics":125,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":129,"updated_at":130,"faqs":131,"releases":167},8929,"SkyworkAI\u002FVitron","Vitron","NeurIPS 2024 Paper: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing","Vitron 是一款入选 NeurIPS 2024 的通用像素级视觉大语言模型，旨在打破传统视觉 AI 的能力边界。它不仅能“看懂”图像和视频内容，进行深度理解与逻辑推理，还能直接生成、分割、跟踪以及编辑（如局部重绘）静态图片和动态视频。\n\n现有视觉模型往往局限于粗粒度的实例识别，难以统一处理图文多模态任务，且在视频理解和精细像素操作上表现不足。Vitron 通过统一的架构填补了这些空白，实现了对视觉内容从感知到创作的全流程覆盖，解决了以往模型功能单一、无法兼顾理解与生成的痛点。\n\n这款工具特别适合人工智能研究人员、算法开发者以及需要处理复杂视觉任务的技术团队使用。对于希望探索多模态大模型前沿应用或构建综合性视觉智能系统的专业人士而言，Vitron 提供了强大的基础支持。\n\n其核心技术亮点在于“像素级”的统一处理能力：无需切换不同模型，即可在一个框架内完成理解、生成、分割和编辑等多种任务，并同时支持静态图像与动态视频流。这种高度集成的设计大幅提升了处理效率与任务协同性，为构建下一代全能型视觉助手奠定了坚实基础。","\n\n# \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_Vitron_readme_00fdd974298b.png\" style=\"width: 5%\"> VITRON: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing\n**NeurIPS 2024 Paper**\n\n[Hao Fei](http:\u002F\u002Fhaofei.vip\u002F)$^{1,2}$, [Shengqiong Wu](https:\u002F\u002Fchocowu.github.io\u002F)$^{1,2}$, [Hanwang Zhang](https:\u002F\u002Fpersonal.ntu.edu.sg\u002Fhanwangzhang\u002F)$^{1,3}$, [Tat-Seng Chua](https:\u002F\u002Fwww.chuatatseng.com\u002F)$^{2}$, [Shuicheng Yan](https:\u002F\u002Fyanshuicheng.info\u002F)$^{1}$\n\n**▶ $^{1}$ Skywork AI, Singapore   ▶ $^{2}$ National University of Singapore   ▶ $^{3}$ Nanyang Technological University**\n\n\n\u003Ca href='https:\u002F\u002Fvitron-llm.github.io\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-Green'>\u003C\u002Fa>\n\u003Ca href='http:\u002F\u002F101.200.223.110:18088\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDemo-Page-purple'>\u003C\u002Fa> \n\u003Ca href='https:\u002F\u002Fis.gd\u002FaGu0VV'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-PDF-orange'>\u003C\u002Fa> \n![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-BSD-blue.svg)\n[![YouTube](https:\u002F\u002Fbadges.aleen42.com\u002Fsrc\u002Fyoutube.svg)](https:\u002F\u002Fyoutu.be\u002FwiGMJzoQVu4)\n\n\n## 📰 News\n* **[2024.09.26]** Excited that this work has been accepted by NeurIPS 2024. \n* **[2024.07.19]** We release the [Dataset](data\u002FREADME.md) constructed for  `Text Invocation Instruction Tuning`. \n* **[2024.06.28]** 🤗 We release the checkpoint, refer to [README](checkpoints\u002FREADME.md) for more details.\n* **[2024.04.04]**  👀👀👀 Our [Vitron](https:\u002F\u002Fvitron-llm.github.io\u002F) is available now! Welcome to **watch** 👀 this repository for the latest updates.\n\n\n\n## 😮 Highlights\n\nExisting vision LLMs might still encounter challenges such as superficial instance-level understanding, lack of unified support for both images and videos, and insufficient coverage across various vision tasks. To fill the gaps, we present Vitron, a universal pixel-level vision LLM, designed for comprehensive understanding (perceiving and reasoning), generating, segmenting (grounding and tracking), editing (inpainting) of both static image and dynamic video content.\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Ca target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_Vitron_readme_8543ad8bda7e.png\" alt=\"vitron\" style=\"width: 90%; min-width: 200px; display: block; margin: auto;\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n\n## 🛠️ Requirements and Installation\n* Python >= 3.8\n* Pytorch == 2.1.0\n* CUDA Version >= 11.8\n* Install required packages:\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron\ncd Vitron\nconda create -n vitron python=3.10 -y\nconda activate vitron\npip install --upgrade pip \npip install -e .\npip install -e \".[train]\"\npip install flash-attn --no-build-isolation\npip install decord opencv-python git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fpytorchvideo.git@28fe037d212663c6a24f373b94cc5d478c8c1a1d\n```\n\u003Cdetails> \n\u003Csummary>🔥🔥🔥 Installation or Running Fails? 🔥🔥🔥 \u003C\u002Fsummary>\n\n1. When running ffmpeg, `Unknown encoder 'x264'`:\n    -  try to re-install ffmpeg:\n    ```\n    conda uninstall ffmpeg\n    conda install -c conda-forge ffmpeg   # `-c conda-forge` can not omit\n    ```\n  \n2. Fail to install detectron2, try this command:\n    ```\n    python -m pip install 'git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdetectron2.git'\n    ```\n    or refer this [Website](https:\u002F\u002Fdetectron2.readthedocs.io\u002Fen\u002Flatest\u002Ftutorials\u002Finstall.html).\n  \n3. Error in gradio. As there are a big update in `gradio>=4.0.0`, please make sure install gradio with the same verion in `requirements.txt`.\n\n4. Error with deepspeed. If you fine-tune your model, this error occours:\n    ```\n    FAILED: cpu_adam.so\n    \u002Fusr\u002Fbin\u002Fld: cannot find -lcurand\n    ```\n    This error is caused by the wrong soft links when installing deepspeed. Please try to the following command to solve the error:\n    ```\n    cd ~\u002Fminiconda3\u002Fenvs\u002Fvitron\u002Flib\n    ls -al libcurand*  # check the links\n    rm libcurand.so   # remove the wrong links\n    ln -s libcurand.so.10.3.5.119 libcurand.so  # build new links\n    ```\n    Double check again:\n    ```\n    python \n    from deepspeed.ops.op_builder import CPUAdamBuilder\n    ds_opt_adam = CPUAdamBuilder().load()  # if loading successfully, then deepspeed are installed successfully.\n    ```\n\n\u003C\u002Fdetails>\n\n\n## Code Structure\n\n```\n.\n├── assets\n├── checkpoints    # saving the pre-trained checkpoints\n├── data          \n├── examples\n├── modules        # each modules used in our project\n│   ├── GLIGEN\n│   ├── i2vgen-xl\n│   ├── SEEM\n│   └── StableVideo\n├── scripts\n└── vitron\n    ├── model\n    │   ├── language_model\n    │   ├── multimodal_encoder\n    │   ├── multimodal_projector\n    │   └── region_extractor\n    └── train\n```\n\n\n## 👍 Deploying Gradio Demo\n* Firstly, you need to prepare the checkpoint, see [README]() for more details.\n* Then, you can run the demo locally via:\n```\npython app.py\n```\n\n\n## Fine-tuning your model\n- Firstly, prepare the dataset. \nWe release the constructed dataset for `Invocation-oriented Instruction Tuning`. Please refer for the [README](data\u002FREADME.md) for more details.\n- Then, modify the `image\u002Fvideo\u002Fdata` path in [finetune_lora.sh](scripts\u002Ffinetune_lora.sh).\n```\nJSON_FOLDER=None\nIMAGE_FOLDER=None\nVIDEO_FOLDER=None\nDATA_PATH=\".\u002Fdata\u002Fdata.json\"\n```\n- Next, prepare the [checkpoint](checkpoints\u002FREADME.md).\n- Finally, run the code:\n```\nbash scripts\u002Ffine_lora.sh\n```\n\n## 🙌 Related Projects\nYou may refer to related work that serves as foundations for our framework and code repository, \n[Vicuna](https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat), \n[SEEM](https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSegment-Everything-Everywhere-All-At-Once), \n[i2vgenxl](https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVGen), \n[StableVideo](https:\u002F\u002Fgithub.com\u002Frese1f\u002FStableVideo), and\n[Zeroscope](https:\u002F\u002Fhuggingface.co\u002Fcerspense\u002Fzeroscope_v2_576w).\nWe also partially draw inspirations from \n[Video-LLaVA](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FVideo-LLaVA),\nand [LanguageBind](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FLanguageBind).\nThanks for their wonderful works.\n\n\n## 🔒 License\n* The majority of this project is released under the Apache 2.0 license as found in the [LICENSE](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron\u002Fblob\u002Fmain\u002FLICENSE) file.\n* The service is a research preview intended for non-commercial use only, subject to the model [License](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fllama\u002Fblob\u002Fmain\u002FMODEL_CARD.md) of LLaMA, [Terms of Use](https:\u002F\u002Fopenai.com\u002Fpolicies\u002Fterms-of-use) of the data generated by OpenAI, and [Privacy Practices](https:\u002F\u002Fchrome.google.com\u002Fwebstore\u002Fdetail\u002Fsharegpt-share-your-chatg\u002Fdaiacboceoaocpibfodeljbdfacokfjb) of ShareGPT. Please contact us if you find any potential violation.\n\n\n\n\n## ✏️ Citation\nIf you find our paper and code useful in your research, please consider giving a star :star: and citation :pencil:.\n\n```BibTeX\n@inproceedings{fei2024vitron,\n  title={VITRON: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing},\n  author={Fei, Hao and Wu, Shengqiong and Zhang, Hanwang and Chua, Tat-Seng and Yan, Shuicheng},\n  year={2024},\n  journal={Proceedings of the Advances in neural information processing systems},\n}\n```\n\n\n\u003C!---->\n## ✨ Star History\n[![Star History](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_Vitron_readme_06d5012c3cb8.png)](https:\u002F\u002Fstar-history.com\u002F#SkyworkAI\u002FVitron&Date)\n\n\n\n\n","# \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_Vitron_readme_00fdd974298b.png\" style=\"width: 5%\"> VITRON：用于理解、生成、分割和编辑的统一像素级视觉大模型\n\n**NeurIPS 2024 论文**\n\n[Hao Fei](http:\u002F\u002Fhaofei.vip\u002F)$^{1,2}$，[Shengqiong Wu](https:\u002F\u002Fchocowu.github.io\u002F)$^{1,2}$，[Hanwang Zhang](https:\u002F\u002Fpersonal.ntu.edu.sg\u002Fhanwangzhang\u002F)$^{1,3}$，[Tat-Seng Chua](https:\u002F\u002Fwww.chuatatseng.com\u002F)$^{2}$，[Shuicheng Yan](https:\u002F\u002Fyanshuicheng.info\u002F)$^{1}$\n\n**▶ $^{1}$ 新加坡 Skywork AI   ▶ $^{2}$ 新加坡国立大学   ▶ $^{3}$ 南洋理工大学**\n\n\n\u003Ca href='https:\u002F\u002Fvitron-llm.github.io\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-Green'>\u003C\u002Fa>\n\u003Ca href='http:\u002F\u002F101.200.223.110:18088\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDemo-Page-purple'>\u003C\u002Fa> \n\u003Ca href='https:\u002F\u002Fis.gd\u002FaGu0VV'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-PDF-orange'>\u003C\u002Fa> \n![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-BSD-blue.svg)\n[![YouTube](https:\u002F\u002Fbadges.aleen42.com\u002Fsrc\u002Fyoutube.svg)](https:\u002F\u002Fyoutu.be\u002FwiGMJzoQVu4)\n\n\n## 📰 新闻\n* **[2024.09.26]** 我们很高兴这项工作已被 NeurIPS 2024 接受。\n* **[2024.07.19]** 我们发布了为 `Text Invocation Instruction Tuning` 构建的 [数据集](data\u002FREADME.md)。\n* **[2024.06.28]** 🤗 我们发布了检查点，更多详情请参阅 [README](checkpoints\u002FREADME.md)。\n* **[2024.04.04]**  👀👀👀 我们的 [Vitron](https:\u002F\u002Fvitron-llm.github.io\u002F) 现已上线！欢迎 **关注** 👀 此仓库以获取最新更新。\n\n\n\n## 😮 亮点\n\n现有的视觉大模型可能仍然面临一些挑战，例如对实例级别的理解较为表面化、未能统一支持图像和视频，以及在各类视觉任务上的覆盖不足。为了弥补这些不足，我们提出了 Vitron，一个通用的像素级视觉大模型，旨在对静态图像和动态视频内容进行全面的理解（感知与推理）、生成、分割（定位与跟踪）以及编辑（修复填充）。\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Ca target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_Vitron_readme_8543ad8bda7e.png\" alt=\"vitron\" style=\"width: 90%; min-width: 200px; display: block; margin: auto;\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n\n## 🛠️ 系统要求与安装\n* Python >= 3.8\n* Pytorch == 2.1.0\n* CUDA 版本 >= 11.8\n* 安装所需包：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron\ncd Vitron\nconda create -n vitron python=3.10 -y\nconda activate vitron\npip install --upgrade pip \npip install -e .\npip install -e \".[train]\"\npip install flash-attn --no-build-isolation\npip install decord opencv-python git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fpytorchvideo.git@28fe037d212663c6a24f373b94cc5d478c8c1a1d\n```\n\u003Cdetails> \n\u003Csummary>🔥🔥🔥 安装或运行失败？ 🔥🔥🔥 \u003C\u002Fsummary>\n\n1. 运行 ffmpeg 时出现 `Unknown encoder 'x264'` 错误：\n    - 尝试重新安装 ffmpeg：\n    ```\n    conda uninstall ffmpeg\n    conda install -c conda-forge ffmpeg   # `-c conda-forge` 不可省略\n    ```\n  \n2. 安装 detectron2 失败时，尝试以下命令：\n    ```\n    python -m pip install 'git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdetectron2.git'\n    ```\n    或参考此 [网站](https:\u002F\u002Fdetectron2.readthedocs.io\u002Fen\u002Flatest\u002Ftutorials\u002Finstall.html)。\n\n3. gradio 出现错误。由于 `gradio>=4.0.0` 有较大更新，请确保安装与 `requirements.txt` 中相同版本的 gradio。\n\n4. deepspeed 出现错误。如果您正在微调模型，可能会遇到以下错误：\n    ```\n    FAILED: cpu_adam.so\n    \u002Fusr\u002Fbin\u002Fld: cannot find -lcurand\n    ```\n    该错误是由安装 deepspeed 时软链接设置不当引起的。请尝试以下命令解决：\n    ```\n    cd ~\u002Fminiconda3\u002Fenvs\u002Fvitron\u002Flib\n    ls -al libcurand*  # 检查链接\n    rm libcurand.so   # 删除错误链接\n    ln -s libcurand.so.10.3.5.119 libcurand.so  # 重建正确链接\n    ```\n    再次确认：\n    ```\n    python \n    from deepspeed.ops.op_builder import CPUAdamBuilder\n    ds_opt_adam = CPUAdamBuilder().load()  # 如果加载成功，则说明 deepspeed 已成功安装。\n    ```\n\n\u003C\u002Fdetails>\n\n\n## 代码结构\n\n```\n.\n├── assets\n├── checkpoints    # 保存预训练检查点\n├── data          \n├── examples\n├── modules        # 项目中使用的各个模块\n│   ├── GLIGEN\n│   ├── i2vgen-xl\n│   ├── SEEM\n│   └── StableVideo\n├── scripts\n└── vitron\n    ├── model\n    │   ├── language_model\n    │   ├── multimodal_encoder\n    │   ├── multimodal_projector\n    │   └── region_extractor\n    └── train\n```\n\n\n## 👍 部署 Gradio 演示\n* 首先，您需要准备好检查点，更多详情请参阅 [README]()。\n* 然后，您可以在本地运行演示：\n```\npython app.py\n```\n\n\n## 微调您的模型\n- 首先，准备数据集。 \n我们发布了为 `Invocation-oriented Instruction Tuning` 构建的数据集。更多详情请参阅 [README](data\u002FREADME.md)。\n- 然后，在 [finetune_lora.sh](scripts\u002Ffinetune_lora.sh) 中修改 `image\u002Fvideo\u002Fdata` 路径。\n```\nJSON_FOLDER=None\nIMAGE_FOLDER=None\nVIDEO_FOLDER=None\nDATA_PATH=\".\u002Fdata\u002Fdata.json\"\n```\n- 接着，准备 [检查点](checkpoints\u002FREADME.md)。\n- 最后，运行代码：\n```\nbash scripts\u002Ffine_lora.sh\n```\n\n## 🙌 相关项目\n您可以参考作为我们框架和代码库基础的相关工作，\n[Vicuna](https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat)， \n[SEEM](https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSegment-Everything-Everywhere-All-At-Once)， \n[i2vgenxl](https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVGen)， \n[StableVideo](https:\u002F\u002Fgithub.com\u002Frese1f\u002FStableVideo)，以及\n[Zeroscope](https:\u002F\u002Fhuggingface.co\u002Fcerspense\u002Fzeroscope_v2_576w)。\n我们还部分借鉴了 \n[Video-LLaVA](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FVideo-LLaVA),\n和 [LanguageBind](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FLanguageBind) 的灵感。\n感谢他们出色的工作。\n\n\n## 🔒 许可证\n* 本项目的大部分内容根据 [LICENSE](https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron\u002Fblob\u002Fmain\u002FLICENSE) 文件中的 Apache 2.0 许可协议发布。\n* 本服务为研究预览版，仅供非商业用途使用，同时需遵守 LLaMA 模型的 [许可证](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fllama\u002Fblob\u002Fmain\u002FMODEL_CARD.md)，OpenAI 生成数据的 [使用条款](https:\u002F\u002Fopenai.com\u002Fpolicies\u002Fterms-of-use)，以及 ShareGPT 的 [隐私政策](https:\u002F\u002Fchrome.google.com\u002Fwebstore\u002Fdetail\u002Fsharegpt-share-your-chatg\u002Fdaiacboceoaocpibfodeljbdfacokfjb)。如发现任何潜在违规行为，请联系我们。\n\n\n\n\n## ✏️ 引用\n如果您在研究中认为我们的论文和代码有用，请考虑给予一颗星 :star: 和引用 :pencil:。\n\n```BibTeX\n@inproceedings{fei2024vitron,\n  title={VITRON: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing},\n  author={Fei, Hao and Wu, Shengqiong and Zhang, Hanwang and Chua, Tat-Seng and Yan, Shuicheng},\n  year={2024},\n  journal={Proceedings of the Advances in neural information processing systems},\n}\n```\n\n\n\u003C!---->\n\n## ✨ 星标历史\n[![星标历史](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_Vitron_readme_06d5012c3cb8.png)](https:\u002F\u002Fstar-history.com\u002F#SkyworkAI\u002FVitron&Date)","# Vitron 快速上手指南\n\nVitron 是一个统一的像素级视觉大语言模型（Vision LLM），支持图像和视频的理解、生成、分割及编辑任务。本指南将帮助开发者快速完成环境配置并运行基础功能。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下硬件和软件要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu)\n*   **Python**: >= 3.8 (推荐 3.10)\n*   **PyTorch**: == 2.1.0\n*   **CUDA**: >= 11.8\n*   **显存**: 建议 24GB 及以上以运行完整功能\n\n## 安装步骤\n\n### 1. 克隆项目与创建环境\n首先克隆代码仓库并创建独立的 Conda 环境：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron\ncd Vitron\nconda create -n vitron python=3.10 -y\nconda activate vitron\n```\n\n### 2. 安装依赖包\n升级 pip 并安装核心依赖。为了提升国内下载速度，建议临时使用清华或阿里镜像源（如下所示）：\n\n```bash\npip install --upgrade pip \n# 使用国内镜像加速安装\npip install -e . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\npip install -e \".[train]\" -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\npip install flash-attn --no-build-isolation -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\npip install decord opencv-python git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fpytorchvideo.git@28fe037d212663c6a24f373b94cc5d478c8c1a1d -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n> **注意**：如果 `flash-attn` 编译失败，请确保已正确安装 CUDA Toolkit 且版本匹配。若遇到 `ffmpeg` 编码错误，可尝试执行 `conda uninstall ffmpeg` 后运行 `conda install -c conda-forge ffmpeg`。\n\n### 3. 准备预训练权重\n运行模型前需下载预训练检查点。请访问 [checkpoints\u002FREADME.md](checkpoints\u002FREADME.md) 获取权重文件，并将其放置在项目指定的 `checkpoints` 目录下。\n\n## 基本使用\n\n### 启动本地演示界面 (Gradio Demo)\n这是体验 Vitron 功能最直观的方式。确保已完成上述权重准备工作后，在项目根目录运行：\n\n```bash\npython app.py\n```\n\n运行成功后，终端会显示本地访问地址（通常为 `http:\u002F\u002F127.0.0.1:7860`）。在浏览器中打开该地址，即可上传图像或视频，通过自然语言指令进行理解、分割、生成或编辑操作。\n\n### 微调模型 (可选)\n如果您希望使用自定义数据集进行微调，请按以下步骤操作：\n\n1.  准备数据集（参考 `data\u002FREADME.md`）。\n2.  修改脚本 `scripts\u002Ffinetune_lora.sh` 中的数据路径：\n    ```bash\n    JSON_FOLDER=None\n    IMAGE_FOLDER=None\n    VIDEO_FOLDER=None\n    DATA_PATH=\".\u002Fdata\u002Fdata.json\"\n    ```\n3.  执行微调命令：\n    ```bash\n    bash scripts\u002Ffine_lora.sh\n    ```","某电商平台的运营团队需要快速处理大量商品短视频，以生成带有精准物体分割和局部重绘的营销素材。\n\n### 没有 Vitron 时\n- **工具链割裂**：团队需分别调用理解模型、分割模型（如 SAM）和生成模型（如 Stable Diffusion），数据在不同接口间反复转换，流程繁琐且易出错。\n- **视频处理能力弱**：现有方案多针对静态图片，处理视频时需逐帧提取再合成，导致物体跟踪不稳定，出现闪烁或边缘抖动。\n- **编辑精度不足**：传统方法难以理解复杂的“文本指令 + 像素级定位”需求，无法准确根据“把红色背包换成蓝色”这类指令进行局部重绘。\n- **开发维护成本高**：集成多个异构模型需要大量算力资源和复杂的工程适配，迭代新功能周期长。\n\n### 使用 Vitron 后\n- **统一架构提效**：Vitron 将理解、生成、分割和编辑能力整合进单一像素级视觉大模型，一键完成从语义分析到画面输出的全流程。\n- **原生视频支持**：直接输入视频流即可实现稳定的物体跟踪与时序一致的编辑，彻底消除帧间闪烁，动态内容处理流畅自然。\n- **指令精准执行**：基于强大的文本调用指令微调，Vitron 能精准解析复杂编辑需求，实现对视频中特定物体的像素级无缝替换。\n- **部署简洁灵活**：只需部署一个模型即可覆盖多种业务场景，显著降低显存占用和运维复杂度，新功能上线速度提升数倍。\n\nVitron 通过统一的像素级架构，将原本碎片化的视频理解与编辑工作流重塑为高效、精准的单模型智能闭环。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSkyworkAI_Vitron_af69c7c2.png","SkyworkAI","Skywork ","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FSkyworkAI_347e666f.jpg","Transfer knowledge, Unlock creativity.",null,"https:\u002F\u002Fskywork.ai\u002F","https:\u002F\u002Fgithub.com\u002FSkyworkAI",[80,84,88,92,96,100],{"name":81,"color":82,"percentage":83},"Python","#3572A5",97.5,{"name":85,"color":86,"percentage":87},"Cuda","#3A4E3A",2.1,{"name":89,"color":90,"percentage":91},"C++","#f34b7d",0.2,{"name":93,"color":94,"percentage":95},"Shell","#89e051",0.1,{"name":97,"color":98,"percentage":99},"CSS","#663399",0,{"name":101,"color":102,"percentage":99},"Dockerfile","#384d54",576,34,"2026-04-09T10:30:05",4,"Linux","必需 NVIDIA GPU，CUDA 版本 >= 11.8。具体显存大小未说明，但鉴于包含视频生成和分割任务，建议高性能显卡。","未说明",{"notes":111,"python":112,"dependencies":113},"1. 强烈建议使用 Conda 创建虚拟环境（示例为 Python 3.10）。2. 安装 flash-attn 时需添加 --no-build-isolation 参数。3. 若遇到 ffmpeg 编码错误，需通过 conda-forge 重新安装 ffmpeg。4. 微调模型时若遇到 deepspeed 链接错误，需手动修复 libcurand 软链接。5. Gradio 版本需与 requirements.txt 严格一致以避免报错。6. 该项目依赖多个子模块（如 GLIGEN, SEEM, StableVideo 等）。","3.8+ (安装脚本示例使用 3.10)",[114,115,116,117,118,119,120,121,122],"torch==2.1.0","flash-attn","decord","opencv-python","pytorchvideo","detectron2","gradio","deepspeed","ffmpeg",[124,35,15],"其他",[126,127,128],"mllm","multimodal-large-language-models","segmentation","2026-03-27T02:49:30.150509","2026-04-18T14:14:12.869632",[132,137,142,147,152,157,162],{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},40049,"找不到 `download.sh` 脚本文件在哪里？","目前仓库中似乎缺失了 `download.sh` 文件，许多用户都遇到了同样的问题。建议手动执行模型下载步骤，或参考 Issue #2 中提供的修改后的脚本来手动克隆所需的模型权重（如 GLIGEN, i2vgen-xl, LanguageBind 等）。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron\u002Fissues\u002F5",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},40050,"如何修复 `pyproject.toml` 中的依赖安装错误（特别是 detectron2 和 ffmpeg）？","需要修改 `pyproject.toml` 文件：\n1. 注释掉 `detectron2==0.6`，因为该版本在 PyPI 上不可用。请使用命令 `pip install git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdetectron2.git` 单独安装。\n2. 将 `ffmpeg` 的版本要求从 `6.1.1` 改为 `1.4`（可用版本包括 1.1.0 到 1.4）。\n3. 维护者确认 `ffmpeg==1.4` 应该可以工作，但需确保终端运行 `ffmpeg` 时能看到 `--enable-libx265` 选项。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron\u002Fissues\u002F1",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},40051,"Checkpoints Preparation 中缺少 stablevideo、Vitron-base、Vitron-lora 和 seem 的模型文件怎么办？","官方提供的下载脚本中这些模型的下载链接确实缺失。用户可以参考社区提供的修正脚本，手动创建目录并尝试从 HuggingFace 或其他源查找对应模型。例如，对于其他模型可以使用 `git clone https:\u002F\u002Fhuggingface.co\u002F...` 的方式，但这些特定模型（Vitron-base\u002Flora, stablevideo, seem）可能需要等待作者补充链接或自行训练\u002F寻找替代资源。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron\u002Fissues\u002F2",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},40052,"Vitron-base 和 Vitron-lora 的模型检查点下载链接在哪里？","目前仓库文档中这两个模型的下载链接为空（none）。这是一个已知问题，多位用户反馈无法找到 `pytorch_model.bin.index.json` 等关键文件。请密切关注项目更新以获取正式的模型权重发布。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron\u002Fissues\u002F8",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},40053,"论文 PDF 无法下载，链接无效怎么办？","原论文 PDF 的 URL 已失效，导致无法下载。建议用户在 GitHub 项目的 Issues 或 Discussions 中请求作者直接上传 PDF 文件到仓库，或者查看作者是否在 arXiv 等其他平台更新了可用链接。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron\u002Fissues\u002F3",{"id":158,"question_zh":159,"answer_zh":160,"source_url":161},40054,"`finetune_lora.sh` 脚本是用于所有训练步骤还是特定步骤？","该问题提出了关于 `finetune_lora.sh` 适用范围的疑问，但目前该 Issue 下尚无官方回复或具体说明。通常此类脚本用于 LoRA 微调阶段，建议查看脚本内部注释或相关文档以确认其具体用途。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron\u002Fissues\u002F14",{"id":163,"question_zh":164,"answer_zh":165,"source_url":166},40055,"项目后续是否有维护计划以及基础模型和 LoRA 模型的发布时间表？","用户询问了项目的维护状态及复现所需的 `base` 和 `LoRA` 模型的发布时间表。目前该问题尚未得到官方的具体时间答复，建议关注项目主页或 Issues 动态以获取最新进展。","https:\u002F\u002Fgithub.com\u002FSkyworkAI\u002FVitron\u002Fissues\u002F7",[]]