[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-OpenGVLab--Ask-Anything":3,"tool-OpenGVLab--Ask-Anything":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":81,"owner_website":79,"owner_url":82,"languages":83,"stars":96,"forks":97,"last_commit_at":98,"license":99,"difficulty_score":10,"env_os":100,"env_gpu":100,"env_ram":100,"env_deps":101,"category_tags":111,"github_topics":112,"view_count":126,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":127,"updated_at":128,"faqs":129,"releases":159},705,"OpenGVLab\u002FAsk-Anything","Ask-Anything","[CVPR2024 Highlight][VideoChatGPT] ChatGPT with video understanding! And many more supported LMs such as miniGPT4, StableLM, and MOSS.","Ask-Anything 是 VideoChat 家族推出的核心开源项目，旨在赋予大语言模型强大的视频与图像理解能力，实现真正的“万物皆可问”。用户通过自然语言对话，即可直接询问视频内容的细节、情节或动作，打破了传统 AI 仅能处理文本的局限。\n\nAsk-Anything 主要解决了多模态大模型在处理长视频理解及复杂视觉任务时的难题。通过指令微调技术，Ask-Anything 不仅能回答基础问题，还能胜任详细的内容描述与分析。其最新版本 VideoChat2 在长视频理解基准 MLVU 上取得了开源模型中的最佳成绩，而 VideoChat2_HD 则通过高分辨率数据微调，显著提升了细节捕捉能力，在 Video-MME 评测中表现突出。此外，项目还支持 miniGPT4、StableLM 等多种主流大模型架构，扩展性极强。\n\nAsk-Anything 非常适合计算机视觉领域的研究人员、希望集成多模态能力的开发者，以及对前沿 AI 技术感兴趣的科技爱好者。无论是用于学术实验还是构建智能视频应用，Ask-Anything 都提供了坚实的技术底座和丰富的社区资源，助力用户轻松探索视频理解的无限","Ask-Anything 是 VideoChat 家族推出的核心开源项目，旨在赋予大语言模型强大的视频与图像理解能力，实现真正的“万物皆可问”。用户通过自然语言对话，即可直接询问视频内容的细节、情节或动作，打破了传统 AI 仅能处理文本的局限。\n\nAsk-Anything 主要解决了多模态大模型在处理长视频理解及复杂视觉任务时的难题。通过指令微调技术，Ask-Anything 不仅能回答基础问题，还能胜任详细的内容描述与分析。其最新版本 VideoChat2 在长视频理解基准 MLVU 上取得了开源模型中的最佳成绩，而 VideoChat2_HD 则通过高分辨率数据微调，显著提升了细节捕捉能力，在 Video-MME 评测中表现突出。此外，项目还支持 miniGPT4、StableLM 等多种主流大模型架构，扩展性极强。\n\nAsk-Anything 非常适合计算机视觉领域的研究人员、希望集成多模态能力的开发者，以及对前沿 AI 技术感兴趣的科技爱好者。无论是用于学术实验还是构建智能视频应用，Ask-Anything 都提供了坚实的技术底座和丰富的社区资源，助力用户轻松探索视频理解的无限可能。","\n\n# 🦜 VideoChat Family: Ask-Anything \n\n\n[![Open in OpenXLab](https:\u002F\u002Fcdn-static.openxlab.org.cn\u002Fapp-center\u002Fopenxlab_app.svg)](https:\u002F\u002Fopenxlab.org.cn\u002Fapps\u002Fdetail\u002Fyinanhe\u002FVideoChat2) | \n\u003Ca src=\"https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1099920215724277770?label=Discord&logo=discord\" href=\"https:\u002F\u002Fdiscord.gg\u002FA2Ex6Pph6A\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1099920215724277770?label=Discord&logo=discord\">\n\u003C\u002Fa> | \n\u003Ca src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcs.CV-2305.06355-b31b1b?logo=arxiv&logoColor=red\" href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.06355\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcs.CV-2305.06355-b31b1b?logo=arxiv&logoColor=red\">\n\u003C\u002Fa>| \u003Ca src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcs.CV-2311.17005-b31b1b?logo=arxiv&logoColor=red\" href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.17005\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcs.CV-2311.17005-b31b1b?logo=arxiv&logoColor=red\">\n\u003C\u002Fa>| \n\u003Ca src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Fopengvlab?style=social\" href=\"https:\u002F\u002Ftwitter.com\u002Fopengvlab\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Fopengvlab?style=social\"> \u003C\u002Fa>\n\u003C\u002Fa>\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FOpenGVLab\u002FVideoChatGPT\">\u003Cimg src=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fhuggingface\u002Fbadges\u002Fraw\u002Fmain\u002Fopen-in-hf-spaces-sm-dark.svg\" alt=\"Open in Spaces\"> [VideoChat-7B-8Bit] End2End ChatBOT for video and image. \u003C\u002Fa> \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FOpenGVLab\u002FInternVideo2-Chat-8B-HD\">\u003Cimg src=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fhuggingface\u002Fbadges\u002Fraw\u002Fmain\u002Fopen-in-hf-spaces-sm-dark.svg\" alt=\"Open in Spaces\"> [InternVideo2-Chat-8B-HD]\u003C\u002Fa>\n\n\n[中文 README 及 中文交流群](README_cn.md) | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.06355)\n\n\u003C!-- 🚀: We update `video_chat` by **instruction tuning for video & image chatting** now! Find its details [here](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.06355.pdf). We release **instruction data** at [InternVideo](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVideo\u002Ftree\u002Fmain\u002FData\u002Finstruction_data). The old version of `video_chat` moved to `video_chat_with_chatGPT`.  -->\n\n⭐️: We are also working on a updated version, stay tuned! \n    \n\n\n\n# :fire: Updates\n- **2025\u002F01\u002F18**: We release [videochat-flash](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVideoChat-Flash) and [videochat-tpo](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FTPO) to extend MLLMs' capabilities on both long and accurate video understanding. [videochat-flash](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVideoChat-Flash) sets new records in mutiple video benchmarks (for both short and long videos), improving code usability by leveaging [LLaVA](https:\u002F\u002Fgithub.com\u002FLLaVA-VL\u002FLLaVA-NeXT) and others. [videochat-tpo](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FTPO) exploits classical vision task annotations (e.g. tracking) to optimize MLLMs in a DPO manner, enhancing MLLMs' performance and enabling capabilities in tracking, segmentation, and more.\n- **2024\u002F06\u002F25**: We release the [branch of videochat2 using `vllm`](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fvllm), speed up the inference of videochat2.\n- **2024\u002F06\u002F19**: 🎉🎉 Our VideoChat2 achieves the best performances among the open-sourced VideoLLMs on [MLVU](https:\u002F\u002Fgithub.com\u002FJUNJIE99\u002FMLVU), a multi-task long video understanding benchmark.\n- **2024\u002F06\u002F13**: Fix some bug and give testing scripts\u002F\n    - :warning: We replace some repeated  (~30) QAs in MVBench, which may only affect the results by 0.5%.\n    - :loudspeaker: We give the scripts for testing [EgoSchema](https:\u002F\u002Fgithub.com\u002Fegoschema\u002FEgoSchema\u002Ftree\u002Fmain) and [Video-MME](https:\u002F\u002Fgithub.com\u002FBradyFU\u002FVideo-MME\u002Ftree\u002Fmain), please check the [demo_mistral.ipynb](.\u002Fvideo_chat2\u002Fdemo\u002Fdemo_mistral.ipynb) and [demo_mistral_hd.ipynb](.\u002Fvideo_chat2\u002Fdemo\u002Fdemo_mistral_hd.ipynb).\n- **2024\u002F06\u002F07**: :fire::fire::fire: We release **VideoChat2_HD**, which is fine-tuned with high-resolution data and is capable of handling more diverse tasks. It showcases better performance on different benchmarks, especially for detailed captioning. Furthermore, it achieves **54.8% on [Video-MME](https:\u002F\u002Fgithub.com\u002FBradyFU\u002FVideo-MME\u002Ftree\u002Fmain)**, the best score among 7B MLLMs. Have a try! 🏃🏻‍♀️🏃🏻\n- **2024\u002F06\u002F06**: We release **VideoChat2_phi3**, a faster model with robust performaces. \n- **2024\u002F05\u002F22**: We release **VideoChat2_mistral**, which shows better capacity on diverse tasks (**60.4% on MVBench, 78.6% on NExT-QA, 63.8% on STAR, 46.4% on TVQA, 54.4% on EgoSchema-full and 80.5% on IntentQA**). More details have been updated in the paper. \n- 2024\u002F04\u002F05 MVBench is selected as Poster (**Highlight**)!\n- 2024\u002F2\u002F27 [MVBench](.\u002Fvideo_chat2) is accepted by CVPR2024.\n- 2023\u002F11\u002F29 VideoChat2 and MVBench are released.\n  - [VideoChat2](.\u002Fvideo_chat2\u002F) is a robust baseline built on [UMT](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002Funmasked_teacher) and [Vicuna-v0](https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat\u002Fblob\u002Fmain\u002Fdocs\u002Fvicuna_weights_version.md).\n  - **2M** diverse [instruction data](.\u002Fvideo_chat2\u002FDATA.md) are released for effective tuning.\n  - [MVBench](.\u002Fvideo_chat2\u002FMVBENCH.md) is a comprehensive benchmark for video understanding.\n\n- 2023\u002F05\u002F11 End-to-end VideoChat and its technical report.\n  - [VideoChat1](.\u002Fvideo_chat\u002F): Instruction tuning for video chatting (also supports image one).\n  - [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.06355.pdf): We present how we craft VideoChat with two versions (via text and embed) along with some discussions on its background, applications, and more.\n\n- 2023\u002F04\u002F25 Watch videos longer than one minute with chatGPT\n  - [VideoChat LongVideo](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Flong_video_support\u002F): Incorporating langchain and whisper into VideoChat.\n\n- 2023\u002F04\u002F21 Chat with MOSS\n  - [VideoChat with MOSS](.\u002Fvideo_chat_text\u002Fvideo_chat_with_MOSS\u002F): Explicit communication with MOSS. \n\n- 2023\u002F04\u002F20: Chat with StableLM\n  - [VideoChat with StableLM](.\u002Fvideo_chat_text\u002Fvideo_chat_with_StableLM\u002F): Explicit communication with StableLM. \n\n- 2023\u002F04\u002F19: Code release & Online Demo\n  - [VideoChat with ChatGPT](.\u002Fvideo_chat_with_ChatGPT): Explicit communication with ChatGPT. Sensitive with time. \n  - [MiniGPT-4 for video](.\u002Fvideo_chat_text\u002Fvideo_miniGPT4\u002F): Implicit communication with Vicuna. Not sensitive with time. (Simple extension of [MiniGPT-4](https:\u002F\u002Fgithub.com\u002FVision-CAIR\u002FMiniGPT-4), which will be improved in the future.)\n\n\n\u003C!-- # :speech_balloon: Example\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F24236723\u002F233631602-6a69d83c-83ef-41ed-a494-8e0d0ca7c1c8.mp4 -->\n\n# 🔨 Getting Started\n\n### Build video chat with:\n* [End2End](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat#running-usage)\n* [ChatGPT](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat_text\u002Fvideo_chat_with_ChatGPT#running-usage)\n* [StableLM](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat_text\u002Fvideo_chat_with_StableLM#running-usage)\n* [MOSS](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat_text\u002Fvideo_chat_with_MOSS#running-usage)\n* [MiniGPT-4](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat_text\u002Fvideo_miniGPT4#running-usage)\n\n\n# :clapper: [\\[End2End ChatBot\\]](https:\u002F\u002Fvchat.opengvlab.com)\n\n\nhttps:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Fassets\u002F24236723\u002Fa8667e87-49dd-4fc8-a620-3e408c058e26\n    \n\u003Cvideo controls>\n  \u003Csource src=\"[https:\u002F\u002Fuser-images.githubusercontent.com\u002F24236723\u002F233630363-b20304ab-763b-40e5-b526-e2a6b9e9cae2.mp4](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Fassets\u002F24236723\u002Fa8667e87-49dd-4fc8-a620-3e408c058e26)\" type=\"video\u002Fmp4\">\nYour browser does not support the video tag.\n\u003C\u002Fvideo>\n\n\n# :movie_camera: [\\[Communication with ChatGPT\\]](https:\u002F\u002Fvchat.opengvlab.com)\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F24236723\u002F233630363-b20304ab-763b-40e5-b526-e2a6b9e9cae2.mp4\n\n\u003Cvideo controls>\n  \u003Csource src=\"https:\u002F\u002Fuser-images.githubusercontent.com\u002F24236723\u002F233630363-b20304ab-763b-40e5-b526-e2a6b9e9cae2.mp4\" type=\"video\u002Fmp4\">\nYour browser does not support the video tag.\n\u003C\u002Fvideo>\n\n\n# :page_facing_up: Citation\n\nIf you find this project useful in your research, please consider cite:\n```BibTeX\n@article{2023videochat,\n  title={VideoChat: Chat-Centric Video Understanding},\n  author={KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, and Yu Qiao},\n  journal={arXiv preprint arXiv:2305.06355},\n  year={2023}\n}\n\n@inproceedings{li2024mvbench,\n  title={Mvbench: A comprehensive multi-modal video understanding benchmark},\n  author={Li, Kunchang and Wang, Yali and He, Yinan and Li, Yizhuo and Wang, Yi and Liu, Yi and Wang, Zun and Xu, Jilan and Chen, Guo and Luo, Ping and others},\n  booktitle={Proceedings of the IEEE\u002FCVF Conference on Computer Vision and Pattern Recognition},\n  pages={22195--22206},\n  year={2024}\n}\n```\n\n# 🌤️ Discussion Group\n\nIf you have any questions during the trial, running or deployment, feel free to join our WeChat group discussion! If you have any ideas or suggestions for the project, you are also welcome to join our WeChat group discussion!\n\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Ask-Anything_readme_76b0df1f1802.png)\n\nWe are hiring researchers, engineers and interns in **General Vision Group, Shanghai AI Lab**.  If you are interested in working with us, please contact [Yi Wang](https:\u002F\u002Fshepnerd.github.io\u002F) (`wangyi@pjlab.org.cn`).\n","# 🦜 VideoChat 家族：Ask-Anything \n\n[![Open in OpenXLab](https:\u002F\u002Fcdn-static.openxlab.org.cn\u002Fapp-center\u002Fopenxlab_app.svg)](https:\u002F\u002Fopenxlab.org.cn\u002Fapps\u002Fdetail\u002Fyinanhe\u002FVideoChat2) | \n\u003Ca src=\"https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1099920215724277770?label=Discord&logo=discord\" href=\"https:\u002F\u002Fdiscord.gg\u002FA2Ex6Pph6A\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1099920215724277770?label=Discord&logo=discord\">\n\u003C\u002Fa> | \n\u003Ca src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcs.CV-2305.06355-b31b1b?logo=arxiv&logoColor=red\" href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.06355\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcs.CV-2305.06355-b31b1b?logo=arxiv&logoColor=red\">\n\u003C\u002Fa>| \u003Ca src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcs.CV-2311.17005-b31b1b?logo=arxiv&logoColor=red\" href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.17005\"> \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcs.CV-2311.17005-b31b1b?logo=arxiv&logoColor=red\">\n\u003C\u002Fa>| \n\u003Ca src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Fopengvlab?style=social\" href=\"https:\u002F\u002Ftwitter.com\u002Fopengvlab\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Fopengvlab?style=social\"> \u003C\u002Fa>\n\u003C\u002Fa>\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FOpenGVLab\u002FVideoChatGPT\">\u003Cimg src=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fhuggingface\u002Fbadges\u002Fraw\u002Fmain\u002Fopen-in-hf-spaces-sm-dark.svg\" alt=\"Open in Spaces\"> [VideoChat-7B-8Bit] 用于视频和图像的端到端（End2End）聊天机器人。 \u003C\u002Fa> \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FOpenGVLab\u002FInternVideo2-Chat-8B-HD\">\u003Cimg src=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fhuggingface\u002Fbadges\u002Fraw\u002Fmain\u002Fopen-in-hf-spaces-sm-dark.svg\" alt=\"Open in Spaces\"> [InternVideo2-Chat-8B-HD]\u003C\u002Fa>\n\n\n[中文 README 及 中文交流群](README_cn.md) | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.06355)\n\n\u003C!-- 🚀：我们现在通过**针对视频和图像聊天的指令微调（Instruction Tuning）**更新了 `video_chat`！详细信息请见 [此处](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.06355.pdf)。我们在 [InternVideo](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVideo\u002Ftree\u002Fmain\u002FData\u002Finstruction_data) 发布了**指令数据**。旧版本的 `video_chat` 已移至 `video_chat_with_chatGPT`。 -->\n\n⭐️：我们也在开发一个更新版本，敬请期待！ \n    \n\n\n\n# 🔥 更新\n- **2025\u002F01\u002F18**: 我们发布了 [videochat-flash](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVideoChat-Flash) 和 [videochat-tpo](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FTPO)，以扩展多模态大语言模型（MLLMs）在长视频和精确视频理解方面的能力。[videochat-flash](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVideoChat-Flash) 在多个视频基准测试中（包括短视频和长视频）创下新纪录，并通过利用 [LLaVA](https:\u002F\u002Fgithub.com\u002FLLaVA-VL\u002FLLaVA-NeXT) 等提升了代码可用性。[videochat-tpo](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FTPO) 利用经典视觉任务标注（例如跟踪）以直接偏好优化（DPO）方式优化 MLLMs，增强了 MLLMs 的性能并实现了跟踪、分割等能力。\n- **2024\u002F06\u002F25**: 我们发布了使用 `vllm` 的 [videochat2 分支](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fvllm)，加快了 videochat2 的推理速度。\n- **2024\u002F06\u002F19**: 🎉🎉 我们的 VideoChat2 在 [MLVU](https:\u002F\u002Fgithub.com\u002FJUNJIE99\u002FMLVU)（多任务长视频理解基准）上取得了开源视频大语言模型（VideoLLMs）中的最佳性能。\n- **2024\u002F06\u002F13**: 修复了一些 bug 并提供了测试脚本。\n    - :warning: 我们替换了 MVBench 中一些重复的 (~30) 问答，这可能仅影响结果 0.5%。\n    - :loudspeaker: 我们提供了测试 [EgoSchema](https:\u002F\u002Fgithub.com\u002Fegoschema\u002FEgoSchema\u002Ftree\u002Fmain) 和 [Video-MME](https:\u002F\u002Fgithub.com\u002FBradyFU\u002FVideo-MME\u002Ftree\u002Fmain) 的脚本，请查看 [demo_mistral.ipynb](.\u002Fvideo_chat2\u002Fdemo\u002Fdemo_mistral.ipynb) 和 [demo_mistral_hd.ipynb](.\u002Fvideo_chat2\u002Fdemo\u002Fdemo_mistral_hd.ipynb)。\n- **2024\u002F06\u002F07**: :fire::fire::fire: 我们发布了 **VideoChat2_HD**，它使用高分辨率数据进行了微调，能够处理更多样化的任务。它在不同基准测试中展现了更好的性能，特别是在详细描述生成方面。此外，它在 [Video-MME](https:\u002F\u002Fgithub.com\u002FBradyFU\u002FVideo-MME\u002Ftree\u002Fmain) 上达到了 **54.8%**，这是 7B MLLMs 中的最高分。快来试试吧！🏃🏻‍♀️🏃🏻\n- **2024\u002F06\u002F06**: 我们发布了 **VideoChat2_phi3**，这是一个具有稳健性能的更快模型。 \n- **2024\u002F05\u002F22**: 我们发布了 **VideoChat2_mistral**，它在多样化任务上显示出更好的能力（**MVBench 上 60.4%，NExT-QA 上 78.6%，STAR 上 63.8%，TVQA 上 46.4%，EgoSchema-full 上 54.4% 以及 IntentQA 上 80.5%**）。更多细节已在论文中更新。 \n- 2024\u002F04\u002F05 MVBench 被选为海报展示（**亮点**）！\n- 2024\u002F2\u002F27 [MVBench](.\u002Fvideo_chat2) 被 CVPR2024 接收。\n- 2023\u002F11\u002F29 发布了 VideoChat2 和 MVBench。\n  - [VideoChat2](.\u002Fvideo_chat2\u002F) 是一个基于 [UMT](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002Funmasked_teacher) 和 [Vicuna-v0](https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat\u002Fblob\u002Fmain\u002Fdocs\u002Fvicuna_weights_version.md) 构建的稳健基线。\n  - 发布了 **2M** 多样化的 [指令数据](.\u002Fvideo_chat2\u002FDATA.md) 用于有效微调。\n  - [MVBench](.\u002Fvideo_chat2\u002FMVBENCH.md) 是一个全面的视频理解基准测试。\n\n- 2023\u002F05\u002F11 端到端 VideoChat 及其技术报告。\n  - [VideoChat1](.\u002Fvideo_chat\u002F): 用于视频聊天的指令微调（也支持图像）。\n  - [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.06355.pdf): 我们介绍了如何使用两个版本（通过文本和嵌入）构建 VideoChat，以及关于其背景、应用等的讨论。\n\n- 2023\u002F04\u002F25 使用 chatGPT 观看超过一分钟的视频\n  - [VideoChat LongVideo](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Flong_video_support\u002F): 将 langchain 和 whisper 集成到 VideoChat 中。\n\n- 2023\u002F04\u002F21 与 MOSS 聊天\n  - [VideoChat with MOSS](.\u002Fvideo_chat_text\u002Fvideo_chat_with_MOSS\u002F): 与 MOSS 进行显式通信。 \n\n- 2023\u002F04\u002F20: 与 StableLM 聊天\n  - [VideoChat with StableLM](.\u002Fvideo_chat_text\u002Fvideo_chat_with_StableLM\u002F): 与 StableLM 进行显式通信。 \n\n- 2023\u002F04\u002F19: 代码发布 & 在线演示\n  - [VideoChat with ChatGPT](.\u002Fvideo_chat_with_ChatGPT): 与 ChatGPT 进行显式通信。对时间敏感。 \n  - [MiniGPT-4 for video](.\u002Fvideo_chat_text\u002Fvideo_miniGPT4\u002F): 与 Vicuna 进行隐式通信。对时间不敏感。（[MiniGPT-4](https:\u002F\u002Fgithub.com\u002FVision-CAIR\u002FMiniGPT-4) 的简单扩展，未来将改进。）\n\n\n\u003C!-- # :speech_balloon: 示例\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F24236723\u002F233631602-6a69d83c-83ef-41ed-a494-8e0d0ca7c1c8.mp4 -->\n\n# 🔨 快速开始\n\n### 使用以下方式构建视频聊天：\n* [End2End](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat#running-usage)\n* [ChatGPT](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat_text\u002Fvideo_chat_with_ChatGPT#running-usage)\n* [StableLM](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat_text\u002Fvideo_chat_with_StableLM#running-usage)\n* [MOSS](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat_text\u002Fvideo_chat_with_MOSS#running-usage)\n* [MiniGPT-4](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat_text\u002Fvideo_miniGPT4#running-usage)\n\n# :clapper: [\\[端到端聊天机器人 (ChatBot)\\]](https:\u002F\u002Fvchat.opengvlab.com)\n\n\nhttps:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Fassets\u002F24236723\u002Fa8667e87-49dd-4fc8-a620-3e408c058e26\n    \n\u003Cvideo controls>\n  \u003Csource src=\"[https:\u002F\u002Fuser-images.githubusercontent.com\u002F24236723\u002F233630363-b20304ab-763b-40e5-b526-e2a6b9e9cae2.mp4](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Fassets\u002F24236723\u002Fa8667e87-49dd-4fc8-a620-3e408c058e26)\" type=\"video\u002Fmp4\">\n您的浏览器不支持视频标签 (video tag)。\n\u003C\u002Fvideo>\n\n\n# :movie_camera: [\\[与 ChatGPT 交流\\]](https:\u002F\u002Fvchat.opengvlab.com)\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F24236723\u002F233630363-b20304ab-763b-40e5-b526-e2a6b9e9cae2.mp4\n\n\u003Cvideo controls>\n  \u003Csource src=\"https:\u002F\u002Fuser-images.githubusercontent.com\u002F24236723\u002F233630363-b20304ab-763b-40e5-b526-e2a6b9e9cae2.mp4\" type=\"video\u002Fmp4\">\n您的浏览器不支持视频标签 (video tag)。\n\u003C\u002Fvideo>\n\n\n# :page_facing_up: 引用\n\n如果您在研究中发现本项目有用，请考虑引用：\n```BibTeX\n@article{2023videochat,\n  title={VideoChat: Chat-Centric Video Understanding},\n  author={KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, and Yu Qiao},\n  journal={arXiv preprint arXiv:2305.06355},\n  year={2023}\n}\n\n@inproceedings{li2024mvbench,\n  title={Mvbench: A comprehensive multi-modal video understanding benchmark},\n  author={Li, Kunchang and Wang, Yali and He, Yinan and Li, Yizhuo and Wang, Yi and Liu, Yi and Wang, Zun and Xu, Jilan and Chen, Guo and Luo, Ping and others},\n  booktitle={Proceedings of the IEEE\u002FCVF Conference on Computer Vision and Pattern Recognition},\n  pages={22195--22206},\n  year={2024}\n}\n```\n\n# 🌤️ 讨论组\n\n如果在试用、运行或部署过程中有任何问题，欢迎加入我们的微信群讨论！如果您对项目有任何想法或建议，也欢迎加入我们的微信群讨论！\n\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Ask-Anything_readme_76b0df1f1802.png)\n\n我们在**通用视觉组 (General Vision Group), 上海人工智能实验室 (Shanghai AI Lab)** 招聘研究人员、工程师和实习生。如果您有兴趣加入我们，请联系 [Yi Wang](https:\u002F\u002Fshepnerd.github.io\u002F) (`wangyi@pjlab.org.cn`)。","# Ask-Anything (VideoChat Family) 快速上手指南\n\nAsk-Anything（VideoChat Family）是一个强大的开源视频与图像理解聊天机器人项目，支持端到端的多模态对话、长视频理解及高分辨率任务处理。本项目基于 VideoChat2 系列模型，提供多种后端选择（如 Mistral, Phi3, ChatGPT 等）。\n\n## 1. 环境准备\n\n在开始本地部署前，请确保您的开发环境满足以下基础要求：\n\n*   **操作系统**: Linux \u002F macOS \u002F Windows (WSL)\n*   **Python**: 推荐版本 3.8+\n*   **深度学习框架**: PyTorch (需匹配 CUDA 版本)\n*   **其他**: Git, FFmpeg (用于视频处理)\n\n> 💡 **国内加速建议**：由于涉及大量模型权重下载，建议使用国内镜像源或访问 **OpenXLab** 在线体验，避免网络超时。\n\n## 2. 安装与部署\n\n### 方案 A：在线体验（推荐，无需本地安装）\n最快体验方式是通过 OpenXLab 或 HuggingFace Spaces 直接运行 Demo，无需配置本地环境。\n\n*   **OpenXLab App**: [点击访问 VideoChat2](https:\u002F\u002Fopenxlab.org.cn\u002Fapps\u002Fdetail\u002Fyinanhe\u002FVideoChat2)\n*   **HuggingFace Spaces**: [VideoChat-7B-8Bit](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FOpenGVLab\u002FVideoChatGPT) | [InternVideo2-Chat-8B-HD](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FOpenGVLab\u002FInternVideo2-Chat-8B-HD)\n\n### 方案 B：本地部署\n若需进行二次开发或批量推理，请克隆仓库并进入对应子目录。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything.git\ncd Ask-Anything\n```\n\n**注意**：具体的依赖安装命令和详细配置位于各个功能子目录中，请根据需求选择：\n*   **VideoChat2 (最新基线)**: `.\u002Fvideo_chat2\u002F`\n*   **优化推理速度**: 可切换至 `vllm` 分支以加速 VideoChat2 推理\n    ```bash\n    git checkout vllm\n    ```\n*   **特定模型构建**:\n    *   [End2End](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat#running-usage)\n    *   [ChatGPT](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat_text\u002Fvideo_chat_with_ChatGPT#running-usage)\n    *   [StableLM](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat_text\u002Fvideo_chat_with_StableLM#running-usage)\n    *   [MOSS](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat_text\u002Fvideo_chat_with_MOSS#running-usage)\n    *   [MiniGPT-4](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Ftree\u002Fmain\u002Fvideo_chat_text\u002Fvideo_miniGPT4#running-usage)\n\n## 3. 基本使用\n\n### 运行测试脚本\n项目提供了 Jupyter Notebook 示例用于快速验证模型效果（以 Mistral 为例）：\n\n*   **标准版测试**: `.\u002Fvideo_chat2\u002Fdemo\u002Fdemo_mistral.ipynb`\n*   **高清版测试**: `.\u002Fvideo_chat2\u002Fdemo\u002Fdemo_mistral_hd.ipynb`\n\n### 启动在线聊天机器人\n您可以直接访问官方提供的 Web 界面进行交互：\n\n*   **End2End ChatBot**: [https:\u002F\u002Fvchat.opengvlab.com](https:\u002F\u002Fvchat.opengvlab.com)\n*   **Communication with ChatGPT**: [https:\u002F\u002Fvchat.opengvlab.com](https:\u002F\u002Fvchat.opengvlab.com)\n\n### 模型特性说明\n*   **VideoChat2_HD**: 针对高分辨率数据微调，擅长细节描述，在 Video-MME 上达到 54.8% 分数。\n*   **VideoChat2_phi3**: 更快速的模型，具有稳健的性能。\n*   **VideoChat2_mistral**: 支持多样化任务，在 MVBench 上表现优异 (60.4%)。\n*   **Long Video Support**: 支持通过 `long_video_support` 分支结合 langchain 和 whisper 处理超过一分钟的长视频。","质检工程师小李每天需审核数百小时产线监控视频，以识别产品装配过程中的细微缺陷。\n\n### 没有 Ask-Anything 时\n- 人工逐帧回看耗时巨大，难以在有限工作时间内完成海量数据的全面审查\n- 长时间盯着屏幕容易产生视觉疲劳，导致细微划痕或零件错位等瑕疵被遗漏\n- 发现问题后无法快速回溯具体时间点，往往只能凭记忆记录大致时段，准确性低\n- 缺乏自动化的分析结论，后续整理成书面报告仍需大量二次人工加工，成本高昂\n\n### 使用 Ask-Anything 后\n- Ask-Anything 直接解析视频流，秒级输出关键帧画面与异常行为的自然语言描述\n- 凭借强大的长视频理解能力，它能一次性处理整段生产记录而非依赖随机片段采样\n- 针对“何时出现螺丝未拧紧”等复杂提问，可精准定位到具体秒级时刻并解释原因\n- 自动生成包含时间戳、事件类型及置信度的结构化质检报告，无需额外整理\n\nAsk-Anything 通过多模态理解能力，将视频审核效率提升了数十倍，让非技术人员也能轻松挖掘视频数据价值。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Ask-Anything_8395a895.png","OpenGVLab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FOpenGVLab_4422f20f.jpg","General Vision Team of Shanghai AI Laboratory",null,"opengvlab@gmail.com","opengvlab","https:\u002F\u002Fgithub.com\u002FOpenGVLab",[84,88,92],{"name":85,"color":86,"percentage":87},"Python","#3572A5",87.2,{"name":89,"color":90,"percentage":91},"Jupyter Notebook","#DA5B0B",12.5,{"name":93,"color":94,"percentage":95},"Shell","#89e051",0.3,3344,270,"2026-04-05T03:02:05","MIT","未说明",{"notes":102,"python":100,"dependencies":103},"项目包含多个分支（如 video_chat, video_chat2），具体依赖需参考各子目录下的运行说明；支持通过 HuggingFace Spaces 在线体验；长视频支持需额外配置 LangChain 和 Whisper。",[104,105,106,107,108,109,110],"LLaVA","FastChat","LangChain","Whisper","vllm","UMT","Vicuna",[13,52,26],[113,114,115,116,117,118,119,120,121,122,123,124,125],"captioning-videos","chatgpt","gradio","langchain","video-question-answering","video-understanding","stablelm","chat","video","big-model","foundation-models","large-language-models","large-model",9,"2026-03-27T02:49:30.150509","2026-04-06T05:15:15.938568",[130,135,140,145,150,154],{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},2956,"Ego4d 数据集的 split 文件下载链接失效或混淆怎么办？","维护者指出，2024 年 1 月 24 日之后，egoqa_split_videos.zip 文件内的视频即为 Ego4d 数据。此前 YouCook 的链接曾短暂错误，现已修复。建议从以下 HuggingFace 链接下载对应数据：\n- Ego4d: https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fynhe\u002Fvideochat2_data\u002Fresolve\u002Fmain\u002Fegoqa_split_videos.zip\n- YouCook: https:\u002F\u002Fpjlab-gvm-data.oss-cn-shanghai.aliyuncs.com\u002Fvideochat2\u002Fdata\u002Fyoucook_split_videos.zip","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Fissues\u002F86",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},2957,"CLEVR 数据集应该使用哪个来源？","不要直接使用斯坦福官网下载的 CLEVR v1.0 版本，因为图片内容与 json 格式可能不对应。建议使用 HuggingFace 数据集仓库中的 jsonl 文件，具体路径为 MMInstruction\u002FM3IT 下的 reasoning\u002Fclevr 目录，例如 train.jsonl。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Fissues\u002F169",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},2958,"VideoChat2 Mistral Stage 3 训练出现 NaN loss 如何解决？","这通常是由于安装的 peft 和 transformers 包版本被意外更新导致不兼容。解决方法是卸载当前版本并重新安装正确的兼容版本。用户反馈使用正确版本的包可以解决上述所有错误。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Fissues\u002F190",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},2959,"训练时遇到 bert-base-uncased tokenizer 加载报错（OSError）怎么办？","首先确保当前运行路径下没有名为 'bert-base-uncased' 的本地文件夹，这会冲突。如果可以联网，直接从 HuggingFace 拉取；如果离线，需要完整 clone 该文件夹并将路径指向本地。多个初始化模型位置可以共用同一个 tokenizer。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Fissues\u002F234",{"id":151,"question_zh":152,"answer_zh":153,"source_url":149},2960,"代码中的 retrieval_utils 部分是否需要运行？","根据维护者回复，retrieval_utils 部分的代码是用于检索功能的，在常规训练流程中应该用不上，无需特别配置或运行。",{"id":155,"question_zh":156,"answer_zh":157,"source_url":158},2961,"如何获取过滤后的原始视频数据集进行训练？","为了避免下载所有视频数据占用过多内存，可以参考 Issue #223 获取最新的下载链接。维护者提供了过滤后的视频分片链接，包括 egoqa、conversation 和 youcook 的 split 视频压缩包，可从 HuggingFace 直接下载。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything\u002Fissues\u002F176",[]]