[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-OpenGVLab--InternVideo":3,"tool-OpenGVLab--InternVideo":65},[4,17,25,39,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":10,"last_commit_at":23,"category_tags":24,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":26,"name":27,"github_repo":28,"description_zh":29,"stars":30,"difficulty_score":10,"last_commit_at":31,"category_tags":32,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[33,34,35,36,14,37,15,13,38],"图像","数据工具","视频","插件","其他","音频",{"id":40,"name":41,"github_repo":42,"description_zh":43,"stars":44,"difficulty_score":45,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[14,33,13,15,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":45,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[15,33,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":16},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,1,"2026-04-03T21:50:24",[13,37],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":81,"owner_website":79,"owner_url":82,"languages":83,"stars":121,"forks":122,"last_commit_at":123,"license":124,"difficulty_score":125,"env_os":126,"env_gpu":127,"env_ram":126,"env_deps":128,"category_tags":131,"github_topics":132,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":153,"updated_at":154,"faqs":155,"releases":186},2857,"OpenGVLab\u002FInternVideo","InternVideo","[ECCV2024] Video Foundation Models & Data for Multimodal Understanding","InternVideo 是由上海人工智能实验室推出的一系列视频基础模型，旨在赋予机器深度理解和分析视频内容的能力。它不仅能识别画面中的物体和动作，还能结合文本进行多模态交互，回答关于视频的复杂问题，甚至生成视频描述。\n\n传统 AI 往往难以处理长视频或理解深层语义，而 InternVideo 通过“生成式”与“判别式”相结合的学习策略，有效解决了这一难题。其最新迭代版本 InternVideo2.5 更是突破了长上下文建模的瓶颈，能够精准捕捉长时间视频中的丰富细节与逻辑关联，实现了对视频内容的“真正世界级理解”。此外，项目还开源了大规模视频 - 文本数据集 InternVid，为行业提供了宝贵的数据基石。\n\nInternVideo 非常适合人工智能研究人员、算法开发者以及希望构建智能视频应用的企业团队使用。无论是需要训练自定义视频模型的研究者，还是致力于开发视频问答、内容检索系统的工程师，都能从中获得强大的预训练模型支持。凭借其在多模态理解上的卓越表现和持续更新的开源生态，InternVideo 正成为推动视频 AI 技术发展的重要引擎。","# InternVideo: Video Foundation Models for Multimodal Understanding\n\n\u003C\u002Fdiv>\n\n---\n\n\u003Cdiv align='center'>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVideo_readme_fcc7fefd495e.png\" class=\"interpolation-image\" alt=\"internvideo2_performance.\" height=\"96%\" width=\"96%\" \u002F>\n\u003C\u002Fdiv>\n\nThis repo contains InternVideo series and related works in video foundation models.\n\n- [InternVideo](InternVideo1): general video foundation models via generative and discriminative learning\n- [InternVideo2](InternVideo2): scaling video foundation models for multimodal video understanding\n- [InternVideo2.5](InternVideo2.5): empowering video mllms with long and rich context modeling\n- [InternVideo-Next](InternVideo-Next): general video foundation models for genuine world understanding\n- [InternVid](Data\u002FInternVid): a large-scale video-text dataset for multimodal understanding and generation\n\n## Updates\n- `2025.12`: The [technical report](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2512.01342) and pretrained model weights of [InternVideo-Next](InternVideo-Next) are released.\n- `2025.01`: [InternVideo2.5](InternVideo2.5) is now released! Check out the [technical report](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.12386) for detailed insights, and access the [model](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL_2_5_HiCo_R16) on HuggingFace.\n- `2024.08.12`: We provide smaller models, [InternVideo2-S\u002FB\u002FL](.\u002FInternVideo2\u002Fsingle_modality\u002FMODEL_ZOO.md), which are distilled from InternVideo2-1B. We also build smaller [VideoCLIP](.\u002FInternVideo2\u002Fmulti_modality\u002FMODEL_ZOO.md) with MobileCLIP.\n- `2024.08`: [InternVideo2-Stage3-8B](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVideo2-Chat-8B) and [InternVideo2-Stage3-8B-HD](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVideo2_chat_8B_HD) are released. 8B indicates the use of InternVideo2-1B and the 7B LLM.\n- `2024.07`: The video annotation for InternVid2 ([HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FInternVideo2_Vid_Text)) is released.\n- `2024.06`: The full version of the video annotation (230M video-text pairs) for InternVid ([OpenDataLab](https:\u002F\u002Fopendatalab.com\u002Fshepshep\u002FInternVidFull) | [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FInternVid-Full)) is released.\n- `2024.04`: The [Checkpoints](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FOpenGVLab\u002Finternvideo2-6618ccb574bd2f91410df5cd) and scripts for InternVideo2 are released.\n- `2024.03`: The [technical report](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.15377) of InternVideo2 is released.\n- `2024.01`: [InternVid](Data\u002FInternVid) (a video-text dataset for video understanding and generation) has been accepted for spotlight presentation of ICLR 2024.\n- `2023.07`: A **video-text dataset InternVid** is released at [here](Data\u002FInternVid) for facilitating multimodal understanding and generation.\n- `2023.05`: **Video instruction data** are released at [here](Data\u002Finstruction_data) for tuning end-to-end video-centric multimodal dialogue systems like [VideoChat](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything).\n- `2023.01`: The [code & models](InternVideo1) of InternVideo are released.\n- `2022.12`: The [technical report](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.03191.pdf) of InternVideo is released.\n- `2022.09`: Press releases of InternVideo ([official](https:\u002F\u002Fwww.shlab.org.cn\u002Fnews\u002F5443279) | [163 news](https:\u002F\u002Fwww.163.com\u002Fdy\u002Farticle\u002FHG939TNR0530QRMB.html) | [qq news](https:\u002F\u002Fnew.qq.com\u002Frain\u002Fa\u002F20220902A053JP00)).\n\n## Contact\n- If you have any questions during the trial, running or deployment, feel free to join our WeChat group discussion! If you have any ideas or suggestions for the project, you are also welcome to join our WeChat group discussion!\n\u003Cdiv align='center'>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVideo_readme_411af430712e.png\" class=\"interpolation-image\" alt=\"wechatgroup\" height=\"15%\" width=\"15%\" \u002F>\n\u003C\u002Fdiv>\n\n- We are hiring researchers, engineers and interns in General Vision Group, Shanghai AI Lab. If you are interested in working with us on video foundation models and related topics, please contact Yi Wang (wangyi@pjlab.org.cn).\n","# InternVideo：用于多模态理解的视频基础模型\n\n\u003C\u002Fdiv>\n\n---\n\n\u003Cdiv align='center'>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVideo_readme_fcc7fefd495e.png\" class=\"interpolation-image\" alt=\"internvideo2_performance.\" height=\"96%\" width=\"96%\" \u002F>\n\u003C\u002Fdiv>\n\n本仓库包含InternVideo系列及相关工作，专注于视频基础模型的研究。\n\n- [InternVideo](InternVideo1)：通过生成式与判别式学习构建通用视频基础模型\n- [InternVideo2](InternVideo2)：扩展视频基础模型以实现多模态视频理解\n- [InternVideo2.5](InternVideo2.5)：通过长序列和丰富上下文建模增强视频多模态大语言模型的能力\n- [InternVideo-Next](InternVideo-Next)：面向真实世界理解的通用视频基础模型\n- [InternVid](Data\u002FInternVid)：用于多模态理解和生成的大规模视频-文本数据集\n\n## 更新\n- `2025.12`：[技术报告](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2512.01342)及[InternVideo-Next](InternVideo-Next)的预训练模型权重已发布。\n- `2025.01`：[InternVideo2.5](InternVideo2.5)现已发布！请参阅[技术报告](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.12386)，获取详细信息，并在HuggingFace上访问该模型[链接](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL_2_5_HiCo_R16)。\n- `2024.08.12`：我们提供了更小的模型版本，即[InternVideo2-S\u002FB\u002FL](.\u002FInternVideo2\u002Fsingle_modality\u002FMODEL_ZOO.md)，它们是从InternVideo2-1B蒸馏而来。此外，我们还基于MobileCLIP构建了更小的[VideoCLIP](.\u002FInternVideo2\u002Fmulti_modality\u002FMODEL_ZOO.md)。\n- `2024.08`：[InternVideo2-Stage3-8B](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVideo2-Chat-8B)和[InternVideo2-Stage3-8B-HD](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVideo2_chat_8B_HD)已发布。其中8B表示使用了InternVideo2-1B和7B的LLM。\n- `2024.07`：InternVid2的视频标注数据集（[HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FInternVideo2_Vid_Text)）已发布。\n- `2024.06`：InternVid的完整版视频标注数据集（2.3亿对视频-文本）已发布（[OpenDataLab](https:\u002F\u002Fopendatalab.com\u002Fshepshep\u002FInternVidFull) | [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FInternVid-Full)）。\n- `2024.04`：InternVideo2的[检查点](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FOpenGVLab\u002Finternvideo2-6618ccb574bd2f91410df5cd)及相关脚本已发布。\n- `2024.03`：InternVideo2的[技术报告](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.15377)已发布。\n- `2024.01`：[InternVid](Data\u002FInternVid)（一个用于视频理解和生成的视频-文本数据集）已被ICLR 2024接受为亮点展示。\n- `2023.07`：一个**视频-文本数据集InternVid**已在[这里](Data\u002FInternVid)发布，以促进多模态理解和生成。\n- `2023.05`：**视频指令数据**已在[这里](Data\u002Finstruction_data)发布，用于微调端到端的以视频为中心的多模态对话系统，例如[VideoChat](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FAsk-Anything)。\n- `2023.01`：InternVideo的[代码与模型](InternVideo1)已发布。\n- `2022.12`：InternVideo的[技术报告](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.03191.pdf)已发布。\n- `2022.09`：关于InternVideo的新闻报道（[官方](https:\u002F\u002Fwww.shlab.org.cn\u002Fnews\u002F5443279) | [163新闻](https:\u002F\u002Fwww.163.com\u002Fdy\u002Farticle\u002FHG939TNR0530QRMB.html) | [qq新闻](https:\u002F\u002Fnew.qq.com\u002Frain\u002Fa\u002F20220902A053JP00))。\n\n## 联系方式\n- 如果您在试用、运行或部署过程中有任何疑问，欢迎加入我们的微信群讨论！如果您对该项目有任何想法或建议，也欢迎加入我们的微信群讨论！\n\u003Cdiv align='center'>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVideo_readme_411af430712e.png\" class=\"interpolation-image\" alt=\"wechatgroup\" height=\"15%\" width=\"15%\" \u002F>\n\u003C\u002Fdiv>\n\n- 我们在上海人工智能实验室通用视觉组招聘研究人员、工程师和实习生。如果您有兴趣与我们一起从事视频基础模型及相关领域的研究，请联系王毅（wangyi@pjlab.org.cn）。","# InternVideo 快速上手指南\n\nInternVideo 是上海人工智能实验室开源的视频基础模型系列，旨在通过生成式和判别式学习实现多模态视频理解。本指南基于最新的 InternVideo2 系列模型，帮助开发者快速搭建环境并运行示例。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04\u002F20.04\u002F22.04)\n*   **Python**: 3.8 或更高版本\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡 (建议显存 16GB 以上以运行大模型，小模型可酌情降低)\n*   **CUDA**: 11.7 或更高版本\n*   **PyTorch**: 2.0.0 或更高版本\n\n**前置依赖安装：**\n建议使用 `conda` 创建独立虚拟环境。\n\n```bash\nconda create -n internvideo python=3.10 -y\nconda activate internvideo\n```\n\n## 安装步骤\n\n### 1. 克隆代码库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVideo.git\ncd InternVideo\n```\n\n### 2. 安装核心依赖\n推荐使用国内镜像源（如清华源）加速 PyTorch 及相关库的安装。\n\n```bash\n# 安装 PyTorch (根据实际 CUDA 版本调整，此处以 CUDA 11.8 为例)\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n\n# 安装其他依赖\npip install -r requirements.txt\n```\n\n### 3. 安装 InternVideo 包\n进入对应子目录进行安装（以 InternVideo2 为例）：\n\n```bash\ncd InternVideo2\npip install -e .\n```\n\n> **注意**：如果您需要使用特定的多模态功能（如 VideoChat），请确保安装了 `decord`, `transformers`, `accelerate` 等额外库。\n\n## 基本使用\n\n以下示例展示如何加载预训练的 InternVideo2 模型并进行简单的视频特征提取。\n\n### 1. 下载预训练模型\n您可以从 HuggingFace 或 ModelScope（魔搭社区，国内访问更快）下载权重。\n\n**使用 ModelScope 下载（推荐国内用户）：**\n```bash\n# 需先安装 modelscope: pip install modelscope\npython -c \"from modelscope import snapshot_download; snapshot_download('OpenGVLab\u002FInternVideo2-Stage1_1B-224p', local_dir='.\u002Fcheckpoints\u002Finternvideo2_stage1')\"\n```\n\n### 2. 运行推理示例\n创建一个 Python 脚本 `demo.py`，执行以下代码：\n\n```python\nimport torch\nfrom internvideo2.modeling import build_model\nfrom internvideo2.utils.config import Config\n\n# 1. 加载配置文件 (路径需根据实际项目结构调整)\ncfg = Config.from_file(\"configs\u002Fpretrain\u002Finternvideo2_stage1_1b_224p.py\")\n\n# 2. 构建模型\nmodel = build_model(cfg, pretrain=True)\nmodel.eval()\nmodel.cuda()\n\n# 3. 准备输入数据 (此处为伪代码，实际需使用 decord 读取视频帧)\n# 假设 video_frames 是一个形状为 [1, frames, channels, height, width] 的 Tensor\n# video_frames = load_video_frames(\"your_video.mp4\") \nvideo_frames = torch.randn(1, 16, 3, 224, 224).cuda()\n\n# 4. 前向推理\nwith torch.no_grad():\n    features = model.extract_features(video_frames)\n\nprint(f\"输出特征形状：{features.shape}\")\nprint(\"视频特征提取完成！\")\n```\n\n### 3. 运行多模态对话 (InternVideo2-Chat)\n如果您已下载 8B 聊天模型，可使用 `transformers` 库快速启动对话：\n\n```python\nfrom transformers import AutoTokenizer, AutoModelForCausalLM\nimport torch\n\nmodel_path = \"OpenGVLab\u002FInternVideo2-Chat-8B\" # 或本地路径\n\ntokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_path, \n    device_map=\"auto\", \n    trust_remote_code=True,\n    torch_dtype=torch.bfloat16\n)\n\nvideo_path = \"example.mp4\"\nprompt = \"请描述这个视频的内容。\"\n\n# 执行推理 (具体 API 请参考官方 scripts\u002Fchat_demo.py)\nresponse = model.chat(tokenizer, video_path, prompt)\nprint(response)\n```\n\n---\n*更多详细用法、微调教程及数据集介绍，请参阅仓库中各子模块（InternVideo1, InternVideo2, InternVid）的独立文档。*","某电商平台的智能客服团队正试图构建一个能自动分析用户上传的“产品开箱与故障演示视频”的系统，以替代人工初审。\n\n### 没有 InternVideo 时\n- **长视频理解能力弱**：传统模型难以处理超过几分钟的完整开箱视频，往往只能抽取关键帧，导致遗漏视频中后段出现的隐蔽故障细节。\n- **多模态对齐精度低**：系统无法精准关联用户口述的“异响”、“卡顿”等语音描述与画面中具体的机械动作，频繁误判故障类型。\n- **开发数据成本高昂**：团队需耗费数周时间人工标注海量视频 - 文本对来训练专用模型，且泛化能力差，遇到新类目产品需重新标注。\n- **复杂推理缺失**：面对需要结合上下文逻辑（如“先通电再按开关却无反应”）的诊断场景，旧模型仅能识别单一动作，无法给出连贯的因果分析。\n\n### 使用 InternVideo 后\n- **长上下文精准建模**：借助 InternVideo2.5 的长序列处理能力，系统可完整理解长达数十分钟的视频流，准确捕捉从开箱到故障复现的全过程细节。\n- **深度多模态语义融合**：利用其强大的多模态基座特性，系统能将用户的语音投诉与视频中的细微画面变化（如指示灯闪烁频率）精确对齐，故障识别率大幅提升。\n- **零样本\u002F少样本快速落地**：依托 InternVid 大规模预训练权重，团队无需大量标注新数据，即可让模型快速适应各类新品，显著缩短上线周期。\n- **具备逻辑推理对话能力**：集成 InternVideo2-Chat 后，系统不仅能识别故障，还能像专家一样生成包含因果推导的诊断报告，并直接与用户进行多轮视频问答。\n\nInternVideo 将原本碎片化的视频分析升级为具备长程记忆与逻辑推理能力的深度理解，使机器真正看懂了动态世界。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVideo_85792d9e.png","OpenGVLab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FOpenGVLab_4422f20f.jpg","General Vision Team of Shanghai AI Laboratory",null,"opengvlab@gmail.com","opengvlab","https:\u002F\u002Fgithub.com\u002FOpenGVLab",[84,88,92,96,100,103,107,111,115,118],{"name":85,"color":86,"percentage":87},"Python","#3572A5",90.8,{"name":89,"color":90,"percentage":91},"Shell","#89e051",7.6,{"name":93,"color":94,"percentage":95},"C","#555555",0.6,{"name":97,"color":98,"percentage":99},"C++","#f34b7d",0.3,{"name":101,"color":102,"percentage":99},"Cuda","#3A4E3A",{"name":104,"color":105,"percentage":106},"Jupyter Notebook","#DA5B0B",0.2,{"name":108,"color":109,"percentage":110},"Cython","#fedf5b",0.1,{"name":112,"color":113,"percentage":114},"Dockerfile","#384d54",0,{"name":116,"color":117,"percentage":114},"Makefile","#427819",{"name":119,"color":120,"percentage":114},"Batchfile","#C1F12E",2231,144,"2026-04-03T02:40:29","Apache-2.0",4,"未说明","未说明 (作为视频基础模型，通常需 NVIDIA GPU，具体显存取决于模型版本如 8B)",{"notes":129,"python":126,"dependencies":130},"README 主要介绍了 InternVideo 系列模型（InternVideo1\u002F2\u002F2.5\u002FNext）的发布更新、技术报告链接及预训练权重下载地址（HuggingFace）。文中未直接列出具体的运行环境配置、依赖库版本或安装指令。不同模型版本（如 8B 参数模型或蒸馏后的小模型）对硬件资源需求差异较大，建议参考各子项目目录下的具体文档或 HuggingFace 模型卡片获取详细部署指南。",[126],[34,37,36,15,35],[133,134,135,136,137,138,139,140,141,142,143,144,145,146,147,148,149,150,151,152],"foundation-models","video-understanding","vision-transformer","action-recognition","masked-autoencoder","multimodal","open-set-recognition","spatio-temporal-action-localization","temporal-action-localization","video-question-answering","video-retrieval","zero-shot-classification","zero-shot-retrieval","benchmark","contrastive-learning","self-supervised","instruction-tuning","video-data","video-dataset","video-clip","2026-03-27T02:49:30.150509","2026-04-06T05:19:36.092984",[156,161,166,171,176,181],{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},13203,"如何使用 InternVideo2 从原始视频中提取特征？是否有示例代码或 Notebook？","官方提供了用于提取视频特征的脚本和配置。您可以参考 `InternVideo2\u002Fmulti_modality\u002Fvideo_extract\u002F` 目录下的代码。具体步骤包括：\n1. 使用预训练权重（如 `InternVideo2-stage2_1b-224p-f4.pt`）。\n2. 参考配置文件 `clip_config.py` 和提取脚本 `clip_video_extract.py`。\n3. 对于 QVHighlight 等数据集，通常设置每 2 秒提取一个片段（clip），例如 150 秒的视频会生成 75 个片段，特征形状为 [75, 768]。\n4. 文本特征提取需注意分词方式，确保维度与官方提供的特征一致（如使用特定的 tokenizer 处理）。\n相关代码分支可参考 `clip_vision_extract`。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVideo\u002Fissues\u002F182",{"id":162,"question_zh":163,"answer_zh":164,"source_url":165},13204,"运行文本搜索和视频检索 Demo 时，为什么每次得到的 Top 5 结果都不固定且分数不同？","这通常是因为模型权重未正确加载导致的。请检查 `internvideo2_stage2_config.py` 配置文件中的 `pretrained_path` 参数，确保其指向您下载的本地模型权重文件的正确路径。该设置在官方的 DEMO_USAGE_GUIDE 中未明确提及，但必须手动配置才能复现稳定的结果。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVideo\u002Fissues\u002F257",{"id":167,"question_zh":168,"answer_zh":169,"source_url":170},13205,"使用 InternVideo2.5 处理某些视频时报错 \"av_read_frame failed\" 该如何解决？","该错误通常由视频格式兼容性引起（特别是非 MP4 格式）。建议不要直接使用默认的读取方式，而是改用专门处理视频流的函数。可以参考 VideoChat-Flash 项目中的实现，使用 `decord` 或其他鲁棒的解码器逻辑。如果视频在其他代码库中可以正常读取，则可能是当前环境库版本问题；否则建议转换视频格式或采用更兼容的读取函数。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVideo\u002Fissues\u002F253",{"id":172,"question_zh":173,"answer_zh":174,"source_url":175},13206,"如何复现 QVHighlight 数据集的 CLIP 模式特征提取（文本和视觉特征）？","要复现 QVHighlight 的特征提取：\n1. 视觉特征：使用 `internvideo2-s2_1b-224p-f4.pt` 权重，按照每 2 秒采样一帧的方式处理视频，生成的特征形状应为 [片段数，768]（例如 150 秒视频对应 [75, 768]）。\n2. 文本特征：需注意文本预处理方式。官方数据可能包含特定的前缀（如 \"summarize:\"），且分词后的长度需与官方提供的 `.pt` 文件维度匹配（例如某查询对应 12 个 token，则输出应为 [12, 4096]）。\n3. 代码参考：查看 `clip_config.py` 和 `clip_video_extract.py`，并确保 tokenizer 的设置与官方一致。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVideo\u002Fissues\u002F268",{"id":177,"question_zh":178,"answer_zh":179,"source_url":180},13207,"InternVideo 论文中提到处理 16 帧，但加载模型时似乎只用了 8 帧，应该以哪个为准？是否需要针对不同帧数重新训练模型？","论文 Table 1 中显示的处理帧数为 16 帧，但在实际运行 `InternVideo-MM-B-16.ckpt` 等权重时，内部配置可能默认为 8 帧以获得最佳效果。作者指出 4 或 8 帧通常表现最好。如果您需要使用不同的帧数（如 16 帧），理论上需要针对该帧数重新训练模型，因为预训练权重是针对特定输入分辨率和帧数优化的。目前官方可能并未公开所有帧数版本的权重，建议优先使用官方推荐的配置（通常是 8 帧）。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVideo\u002Fissues\u002F86",{"id":182,"question_zh":183,"answer_zh":184,"source_url":185},13208,"如何获取在 MSR-VTT 榜单上获得第一名的 InternVideo2-stage2 6B 模型权重？","截至该 Issue 讨论时，6B 模型权重尚未完全公开或下载链接可能存在权限问题。用户可以尝试参考 1B 模型的评估脚本 `eval_msrvtt.sh` 进行测试，但需注意 6B 模型的配置文件可能与 1B 不同。如果遇到权重加载错误（如 `state_dict` 键不匹配），请确保使用的 PyTorch 版本兼容，并检查是否下载了完整的 checkpoint 文件。建议关注官方仓库更新以获取 6B 模型的正式发布。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVideo\u002Fissues\u002F237",[]]