[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-bytedance--vidi":3,"tool-bytedance--vidi":65},[4,17,27,36,44,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",150720,2,"2026-04-11T11:33:10",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[13,26,14,35],"视频",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":10,"last_commit_at":42,"category_tags":43,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[26,52,35,53,14,54,15,13,55],"数据工具","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,52,54],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":81,"owner_website":82,"owner_url":83,"languages":84,"stars":93,"forks":94,"last_commit_at":95,"license":96,"difficulty_score":97,"env_os":98,"env_gpu":99,"env_ram":98,"env_deps":100,"category_tags":107,"github_topics":80,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":108,"updated_at":109,"faqs":110,"releases":146},6607,"bytedance\u002Fvidi","vidi","The official repo for \"Vidi: Large Multimodal Models for Video Understanding and Editing\"","Vidi 是由字节跳动开源的一系列大型多模态模型，专为视频理解与创作编辑而设计。它旨在解决用户在海量视频内容中难以快速定位关键片段、自动梳理章节结构或进行智能化剪辑的痛点。无论是需要从长视频中精准检索特定时刻，还是希望自动生成视频高光集锦、章节标题，乃至通过自然语言指令完成复杂的视频编辑任务，Vidi 都能提供高效解决方案。\n\n这款工具非常适合开发者、人工智能研究人员以及需要处理视频内容的创作者使用。其核心亮点在于卓越的时空定位能力，不仅能理解视频中的物体和动作，还能精确框定它们在时间轴上的出现范围。最新版本 Vidi2.5 进一步增强了基础模型能力，在保持出色开放域视频问答表现的同时，显著提升了检索精度。用户既可以通过网页演示直接体验“定位”、“检索”、“自动分章”、“高光提取”及“智能编辑”等功能，也可以下载模型权重进行本地推理或微调，灵活适配各类专业场景。","# [Vidi2.5: Large Multimodal Models for Video Understanding and Creation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.19529)\n\nHomepage: https:\u002F\u002Fbytedance.github.io\u002Fvidi-website\u002F\n\n> We introduce Vidi, a family of Large Multimodal Models (LMMs) for a wide range of video understanding and editing (VUE) scenarios. The first release focuses on temporal retrieval (TR), i.e., identifying the time ranges in input videos corresponding to a given text query. The second release evolves toward a foundation model with state-of-the-art spatio-temporal grounding (STG) and temporal retrieval capability while maintaining basic open-ended video QA performance. \n\n## Release\n- [01\u002F20\u002F2026] 🔥 Vidi2.5 released with updated report, github, and demo. VUE_PLOT benchmark and Vidi1.5-9B weight with finetune code are included.\n- [11\u002F25\u002F2025] 🔥 Vidi2 released at [Report](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.19529), [Github](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fvidi), [Homepage](https:\u002F\u002Fbytedance.github.io\u002Fvidi-website\u002F), [Demo](https:\u002F\u002Fvidi.byteintl.com\u002F).\n- [08\u002F29\u002F2025] 🔥 Vidi1.5-9B demo released at https:\u002F\u002Fvidi.byteintl.com\u002F with new UI design.\n- [06\u002F06\u002F2025] 🔥 Vidi-7B demo released at https:\u002F\u002Fvidi.byteintl.com\u002F. Follow the instructions in the [demo](#demo) section to run the demo.\n- [04\u002F21\u002F2025] 🔥 The first release of Vidi consists of tech report and the VUE-TR evaluation benchmark. The 7B model demo and weights are coming soon. \n\n## Content\n- [Demo](https:\u002F\u002Fvidi.byteintl.com\u002F)\n- [Evaluation (VUE-PLOT)](#evaluation-vue-plot)\n- [Evaluation (VUE-STG)](#evaluation-vue-stg)\n- [Evaluation (VUE-TR-V2)](#evaluation-vue-tr-v2)\n- [Model Inference and Finetune](#model-inference-and-finetune)\n\n\n## Demo\nThe demo has been updated at [https:\u002F\u002Fvidi.byteintl.com\u002F](https:\u002F\u002Fvidi.byteintl.com\u002F). The demo has two pages, including vidi base page, and vidi-edit page.\n### Vidi\n\n\u003C!-- Grounding, Retrieval, Character, Chapter, Highlight, VQA, Thinking -->\n1. Select a mode from [\"Grounding\", \"Retrieval\", \"Chapter\", \"Highlight\", \"VQA\", \"Thinking\"] on the segmented button. Please use English query for the best experience.\n\n- \"Grounding\": Input a text query indicating the object to be searched. The model will find the clips corresponding to text query with bounding boxes on the object.\n\n- \"Retrieval\": Input a text query to be searched. The model will find the clips corresponding to text query.\n\n- \"Chapter\": No input query needed. Directly output a set of chapters with title.\n\n- \"Highlight\": No input query needed. Directly output a set of highlight clips with title.\n\n- \"VQA\": Input a question\u002Finstruction about the video. The model will answer the question.\n\n- \"Thinking\": Input a question\u002Finstruction about the video. The model will think and answer the question.\n\n2. Click \"Upload\" button and select a video local file (mp4 format). Make sure the video is not corrupted, and the resolution is not too high. 480p is recommended for fast uploading and decoding.\n2. After the video is uploaded, wait till the uploading is finished and the video is ready to play in the box.\n3. Enter the text query if needed. Click the \"Send\" button.\n4. Wait till the result clips show in the chat box. This could take several minutes for long video.\n\n### Vidi-Edit\n\nSelect the \"Edit\" page. Upload multiple videos and click generate button. It will automatically output an edited video with storyline, music, effect, etc.\n\n\n## Evaluation (VUE-STG)\n\nWe release the video ids, ground-truth annotation and evaluation results in csv files. Follow the instruction in [VUE_STG\u002FREADME.md](VUE_STG\u002FREADME.md) to conduct evaluation.\n```\ncd VUE_STG\npython3 evaluate.py\n```\n\nTo evaluate your own model:\n1. First download the videos based on the ids in [\"VUE_STG\u002Fvue-stg-benchmark\u002Fvideo.csv\"](VUE_STG\u002Fvue-stg-benchmark\u002Fvideo.csv) from Youtube (e.g., [yt-dlp\n](https:\u002F\u002Fgithub.com\u002Fyt-dlp\u002Fyt-dlp)). \n2. Generate the result following the format in [VUE_STG\u002Fresults\u002Fvidi2\u002Ftubes.csv](VUE_STG\u002Fresults\u002Fvidi2\u002Ftubes.csv). Run evaluation script.\n\n\n## Evaluation (VUE-TR-V2)\nWe release the ground-truth annotation and evaluation results in 5 json files. Run the script for a standalone evaluation:\n```\ncd VUE_TR_V2\nbash install.sh\npython3 -u qa_eval.py --pred_path results_Vidi.json\n```\nThe result figures will be saved in the output folder ('.\u002Fresults' by default)\n.\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_vidi_readme_b9601b04cd76.png\" width=\"300\"\u002F> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_vidi_readme_f512536f39d7.png\" width=\"377\"\u002F> \n\nFor evaluation of new models, first download the videos based on the ids in [VUE_TR_V2\u002Fvideo_id.txt](VUE_TR_V2\u002Fvideo_id.txt) from Youtube (e.g., [yt-dlp\n](https:\u002F\u002Fgithub.com\u002Fyt-dlp\u002Fyt-dlp)). Then run inference and save the results in the following format:\n```\n[\n    {\n        \"query_id\": 0,\n        \"video_id\": \"6Qv-LrXJjSM\",\n        \"duration\": 3884.049,\n        \"query\": \"The slide showcases Taco Bell's purple ang pow for Chinese New Year, while a woman explains that purple symbolizes royalty in the Chinese tradition.\",\n        \"answer\": [\n            [\n                913.1399199,\n                953.5340295\n            ]\n        ],\n        \"task\": \"temporal_retrieval\"\n    },\n    ...\n]\n```\n\nYou may find the instruction and data for the previous version (VUE-TR) [here](VUE_TR\u002FREADME.md).\n\n## Evaluation (VUE-PLOT)\nWe release the VUE-PLOT benchmark for plot understanding with two tracks, including character and reasoning. Follow the instruction in [VUE_PLOT\u002Freadme.md](VUE_PLOT\u002Freadme.md) to conduct evaluation.\nTo evaluate your own model:\n1. You can obtain the raw videos either using the YouTube video IDs or, alternatively, by downloading them from the [Condensed Movies dataset](https:\u002F\u002Fwww.robots.ox.ac.uk\u002F~vgg\u002Fdata\u002Fcondensed-movies\u002F) homepage.\n2. Generate the results of your own model and follow the instruction in [VUE_PLOT\u002Freadme.md](VUE_PLOT\u002Freadme.md) to finish the evaluation.\n\n\n## Model Inference and Finetune\n\n- To conduct inference and finetuning for [Vidi1.5-9B](https:\u002F\u002Fhuggingface.co\u002Fbytedance-research\u002FVidi1.5-9B), follow the instructions in [Vidi1.5_9B\u002FREADME.md](Vidi_7B\u002FREADME.md). \n\n- To conduct inference for [Vidi-7B](https:\u002F\u002Fhuggingface.co\u002Fbytedance-research\u002FVidi-7B), follow the instructions in [Vidi_7B\u002FREADME.md](Vidi_7B\u002FREADME.md).\n\n\n## Citation\nIf you find Vidi useful for your research and applications, please cite using this BibTeX:\n```\n@article{Vidi2026vidi2.5,\n    title={Vidi2.5: Large Multimodal Models for Video \n            Understanding and Creation},\n    author={Vidi Team, Chia-Wen Kuo, Chuang Huang, Dawei Du, \n            Fan Chen, Fanding Lei, Feng Gao, Guang Chen, \n            Haoji Zhang, Haojun Zhao, Jin Liu, Jingjing Zhuge,\n            Lili Fang, Lingxi Zhang, Longyin Wen, Lu Guo,\n            Lu Xu, Lusha Li, Qihang Fan, Rachel Deng, \n            Shaobo Fang, Shu Zhang, Sijie Zhu, Stuart Siew, \n            Weiyan Tao, Wen Zhong, Xiaohui Shen, Xin Gu, \n            Ye Yuan, Yicheng He, Yiming Cui, Zhenfang Chen,\n            Zhihua Wu, Zuhua Lin},\n    journal={arXiv preprint arXiv:2511.19529},\n    year={2026}\n}\n@article{Vidi2025vidi,\n    title={Vidi: Large Multimodal Models for Video \n            Understanding and Editing},\n    author={Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, \n            Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang,\n            Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, \n            Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, \n            Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, \n            Xueqiong Qu, Zhenfang Chen},\n    journal={arXiv preprint arXiv:2504.15681},\n    year={2025}\n}\n```\n","# [Vidi2.5：用于视频理解与创作的大型多模态模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.19529)\n\n主页：https:\u002F\u002Fbytedance.github.io\u002Fvidi-website\u002F\n\n> 我们推出了Vidi，这是一系列大型多模态模型（LMMs），适用于广泛的视频理解与编辑（VUE）场景。首次发布聚焦于时间检索（TR），即识别输入视频中与给定文本查询相对应的时间范围。第二次发布则进一步发展为具备先进时空定位（STG）和时间检索能力的基础模型，同时保持基本的开放式视频问答性能。\n\n## 发布\n- [2026年1月20日] 🔥 Vidi2.5发布，包含更新的报告、GitHub仓库和演示。其中包含了VUE_PLOT基准测试以及Vidi1.5-9B权重和微调代码。\n- [2025年11月25日] 🔥 Vidi2在[报告](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.19529)、[GitHub](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fvidi)、[主页](https:\u002F\u002Fbytedance.github.io\u002Fvidi-website\u002F)和[演示](https:\u002F\u002Fvidi.byteintl.com\u002F)上正式发布。\n- [2025年8月29日] 🔥 Vidi1.5-9B演示在https:\u002F\u002Fvidi.byteintl.com\u002F上线，并采用了全新的UI设计。\n- [2025年6月6日] 🔥 Vidi-7B演示在https:\u002F\u002Fvidi.byteintl.com\u002F发布。请按照“演示”部分的说明运行演示。\n- [2025年4月21日] 🔥 Vidi的首次发布包括技术报告和VUE-TR评估基准。7B模型的演示和权重将很快推出。\n\n## 内容\n- [演示](https:\u002F\u002Fvidi.byteintl.com\u002F)\n- [评估（VUE-PLOT）](#evaluation-vue-plot)\n- [评估（VUE-STG）](#evaluation-vue-stg)\n- [评估（VUE-TR-V2）](#evaluation-vue-tr-v2)\n- [模型推理与微调](#model-inference-and-finetune)\n\n\n## 演示\n演示已在[https:\u002F\u002Fvidi.byteintl.com\u002F](https:\u002F\u002Fvidi.byteintl.com\u002F)更新。演示分为两个页面，分别是vidi基础页面和vidi编辑页面。\n### Vidi\n\n\u003C!-- 定位、检索、角色、章节、亮点、VQA、思考 -->\n1. 在分段按钮上从【定位、检索、章节、亮点、VQA、思考】中选择一种模式。为了获得最佳体验，请使用英文查询。\n\n- “定位”：输入一个指示要搜索对象的文本查询。模型会找到与该文本查询对应的片段，并在对象上绘制边界框。\n\n- “检索”：输入一个要搜索的文本查询。模型会找到与该文本查询对应的片段。\n\n- “章节”：无需输入查询。直接输出一组带有标题的章节。\n\n- “亮点”：无需输入查询。直接输出一组带有标题的精彩片段。\n\n- “VQA”：输入关于视频的问题或指令。模型会回答问题。\n\n- “思考”：输入关于视频的问题或指令。模型会思考并回答问题。\n\n2. 点击“上传”按钮，选择本地视频文件（mp4格式）。请确保视频未损坏，且分辨率不要过高。建议使用480p以便快速上传和解码。\n2. 视频上传完成后，等待上传结束，视频将在框内准备播放。\n3. 如有需要，输入文本查询并点击“发送”按钮。\n4. 等待结果片段显示在聊天框中。对于较长的视频，这可能需要几分钟时间。\n\n### Vidi-Edit\n\n选择“编辑”页面。上传多个视频并点击生成按钮。系统将自动输出一段包含故事情节、音乐、特效等的剪辑视频。\n\n\n## 评估（VUE-STG）\n\n我们以CSV文件的形式发布了视频ID、真值标注和评估结果。请按照[VUE_STG\u002FREADME.md](VUE_STG\u002FREADME.md)中的说明进行评估。\n```\ncd VUE_STG\npython3 evaluate.py\n```\n\n要评估您自己的模型：\n1. 首先根据[VUE_STG\u002Fvue-stg-benchmark\u002Fvideo.csv](VUE_STG\u002Fvue-stg-benchmark\u002Fvideo.csv)中的ID，从YouTube下载视频（例如使用[yt-dlp](https:\u002F\u002Fgithub.com\u002Fyt-dlp\u002Fyt-dlp)工具）。\n2. 按照[VUE_STG\u002Fresults\u002Fvidi2\u002Ftubes.csv](VUE_STG\u002Fresults\u002Fvidi2\u002Ftubes.csv)中的格式生成结果，并运行评估脚本。\n\n\n## 评估（VUE-TR-V2）\n我们以5个JSON文件的形式发布了真值标注和评估结果。可运行以下脚本进行独立评估：\n```\ncd VUE_TR_V2\nbash install.sh\npython3 -u qa_eval.py --pred_path results_Vidi.json\n```\n评估结果图表将保存在输出文件夹中（默认为‘.\u002Fresults’）。\n.\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_vidi_readme_b9601b04cd76.png\" width=\"300\"\u002F> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_vidi_readme_f512536f39d7.png\" width=\"377\"\u002F> \n\n对于新模型的评估，首先根据[VUE_TR_V2\u002Fvideo_id.txt](VUE_TR_V2\u002Fvideo_id.txt)中的ID从YouTube下载视频（例如使用[yt-dlp](https:\u002F\u002Fgithub.com\u002Fyt-dlp\u002Fyt-dlp)工具）。然后运行推理，并将结果按以下格式保存：\n```\n[\n    {\n        \"query_id\": 0,\n        \"video_id\": \"6Qv-LrXJjSM\",\n        \"duration\": 3884.049,\n        \"query\": \"幻灯片展示了塔可钟为中国新年推出的紫色红包，一位女士解释说，在中国传统中，紫色象征着皇室。\",\n        \"answer\": [\n            [\n                913.1399199,\n                953.5340295\n            ]\n        ],\n        \"task\": \"temporal_retrieval\"\n    },\n    ...\n]\n```\n\n您可以在[VUE_TR\u002FREADME.md](VUE_TR\u002FREADME.md)中找到关于先前版本（VUE-TR）的说明和数据。\n\n## 评估（VUE-PLOT）\n我们发布了用于情节理解的VUE-PLOT基准测试，包含角色和推理两个赛道。请按照[VUE_PLOT\u002Freadme.md](VUE_PLOT\u002Freadme.md)中的说明进行评估。\n要评估您自己的模型：\n1. 您可以使用YouTube视频ID获取原始视频，或者从[Condensed Movies数据集](https:\u002F\u002Fwww.robots.ox.ac.uk\u002F~vgg\u002Fdata\u002Fcondensed-movies\u002F)的主页下载这些视频。\n2. 生成您模型的结果，并按照[VUE_PLOT\u002Freadme.md](VUE_PLOT\u002Freadme.md)中的指导完成评估。\n\n\n## 模型推理与微调\n\n- 要对[Vidi1.5-9B](https:\u002F\u002Fhuggingface.co\u002Fbytedance-research\u002FVidi1.5-9B)进行推理和微调，请遵循[Vidi1.5_9B\u002FREADME.md](Vidi_7B\u002FREADME.md)中的说明。\n\n- 要对[Vidi-7B](https:\u002F\u002Fhuggingface.co\u002Fbytedance-research\u002FVidi-7B)进行推理，请遵循[Vidi_7B\u002FREADME.md](Vidi_7B\u002FREADME.md)中的说明。\n\n## 引用\n如果您在研究和应用中使用了 Vidi，请使用以下 BibTeX 格式引用：\n```\n@article{Vidi2026vidi2.5,\n    title={Vidi2.5：用于视频理解和生成的大型多模态模型},\n    author={Vidi 团队、郭家文、黄创、杜大伟、陈凡、雷凡丁、高峰、陈光、张浩基、赵浩俊、刘进、诸晶晶、方丽丽、张凌曦、温龙寅、郭璐、徐璐、李露莎、范启航、邓瑞秋、方绍博、张舒、朱思杰、史都特·西欧、陶伟彦、钟文、沈晓辉、顾欣、袁晔、何一成、崔一鸣、陈振芳、吴志华、林祖华},\n    journal={arXiv 预印本 arXiv:2511.19529},\n    year={2026}\n}\n@article{Vidi2025vidi,\n    title={Vidi：用于视频理解和编辑的大型多模态模型},\n    author={Vidi 团队、刘策隆、郭家文、杜大伟、陈凡、陈光、袁佳敏、张凌曦、郭璐、李露莎、温龙寅、陈青宇、邓瑞秋、朱思杰、史都特·西欧、金彤、陆伟、钟文、沈晓辉、顾欣、梅星、瞿雪琼、陈振芳},\n    journal={arXiv 预印本 arXiv:2504.15681},\n    year={2025}\n}\n```","# Vidi 快速上手指南\n\nVidi 是由字节跳动开源的一系列用于视频理解与创作的大型多模态模型（LMMs）。最新版本 Vidi2.5 在时空定位（STG）和时间检索（TR）任务上达到了业界领先水平，同时支持开放域视频问答。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+)\n*   **Python**: 3.8 或更高版本\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡（建议显存 16GB+ 以运行 7B\u002F9B 模型）\n*   **依赖管理**: pip 或 conda\n*   **其他工具**: \n    *   `git`\n    *   `ffmpeg` (用于视频处理)\n    *   `yt-dlp` (用于评估时下载 YouTube 视频)\n\n> **注意**：具体依赖库版本请参考各模型子目录下的 `requirements.txt`。\n\n## 安装步骤\n\n### 1. 克隆仓库\n首先从 GitHub 克隆 Vidi 项目代码：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fvidi.git\ncd vidi\n```\n\n### 2. 创建虚拟环境并安装依赖\n建议使用 conda 创建独立的 Python 环境：\n\n```bash\nconda create -n vidi python=3.10 -y\nconda activate vidi\npip install -r requirements.txt\n```\n\n*(注：若国内下载缓慢，可临时使用清华源加速：`pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`)*\n\n### 3. 下载模型权重\n根据需求选择下载 Vidi-7B 或 Vidi1.5-9B 模型。模型托管于 Hugging Face。\n\n**选项 A：下载 Vidi-7B**\n```bash\n# 需安装 huggingface-cli\npip install huggingface_hub\nhuggingface-cli download bytedance-research\u002FVidi-7B --local-dir .\u002Fmodels\u002FVidi-7B\n```\n\n**选项 B：下载 Vidi1.5-9B (含微调代码支持)**\n```bash\nhuggingface-cli download bytedance-research\u002FVidi1.5-9B --local-dir .\u002Fmodels\u002FVidi1.5-9B\n```\n\n> **国内加速提示**：如果无法直接访问 Hugging Face，建议使用镜像站（如 `hf-mirror.com`）：\n> ```bash\n> export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n> huggingface-cli download bytedance-research\u002FVidi-7B --local-dir .\u002Fmodels\u002FVidi-7B\n> ```\n\n## 基本使用\n\n### 方式一：在线 Demo 体验（无需本地部署）\n最快体验 Vidi 功能的方式是访问官方在线演示页面，支持视频上传与多种任务模式（定位、检索、章节生成、高光时刻、问答等）。\n\n*   **地址**: [https:\u002F\u002Fvidi.byteintl.com\u002F](https:\u002F\u002Fvidi.byteintl.com\u002F)\n*   **操作流程**:\n    1.  进入网站，选择 \"Vidi\" 或 \"Vidi-Edit\" 页面。\n    2.  在模式按钮中选择任务类型（如 `Grounding`, `Retrieval`, `VQA` 等）。\n    3.  点击 `Upload` 上传本地 MP4 视频（建议分辨率 480p 以加快处理）。\n    4.  输入文本查询（英文效果最佳），点击 `Send`。\n    5.  等待数分钟后查看结果片段或回答。\n\n### 方式二：本地推理 (Inference)\n本地运行模型需要参照具体模型版本的 README 执行脚本。以下为通用逻辑示例：\n\n**运行 Vidi-7B 推理：**\n请进入 `Vidi_7B` 目录并按照该目录下 `README.md` 的指示运行。通常命令结构如下：\n\n```bash\ncd Vidi_7B\n# 示例：运行推理脚本（具体参数请参考子目录文档）\npython inference.py --model_path ..\u002Fmodels\u002FVidi-7B --video_path .\u002Ftest_video.mp4 --query \"Find the moment where the dog jumps.\"\n```\n\n**运行 Vidi1.5-9B 推理或微调：**\n请进入 `Vidi1.5_9B` 目录，参考 `README.md` 进行操作。该版本提供了完整的微调代码支持。\n\n```bash\ncd Vidi1.5_9B\n# 示例：启动微调或推理\npython train.py --model_name_or_path ..\u002Fmodels\u002FVidi1.5-9B ...\n```\n\n### 方式三：运行评估基准 (Evaluation)\n如果您希望复现论文中的评估结果（如 VUE-STG, VUE-TR-V2, VUE-PLOT），请进入对应目录运行脚本。\n\n**示例：运行 VUE-TR-V2 评估**\n```bash\ncd VUE_TR_V2\nbash install.sh\npython3 -u qa_eval.py --pred_path results_Vidi.json\n```\n*注意：评估新模型前，需先根据 `video_id.txt` 使用 `yt-dlp` 下载对应的 YouTube 视频数据集。*","某短视频运营团队需要每天从数小时的原始活动录像中，快速提取特定嘉宾的精彩片段并生成带章节标记的成片。\n\n### 没有 vidi 时\n- 剪辑师必须全程人工观看冗长视频，依靠肉眼定位嘉宾出现的具体时间段，耗时极长且容易遗漏。\n- 无法精准框选画面中的特定人物或物体，手动打点标注边界框（Bounding Box）效率低下，难以满足精细化运营需求。\n- 为长视频添加章节标题和高光时刻完全依赖人工构思与切割，不仅节奏把握主观性强，还极易造成时间线混乱。\n- 面对“找出所有观众鼓掌瞬间”这类复杂指令，传统工具无法理解语义，只能靠反复拖拽进度条盲目搜索。\n\n### 使用 vidi 后\n- 利用 Vidi 的\"Retrieval\"功能，输入文本指令即可秒级定位所有对应片段，将数小时的检索工作压缩至几分钟。\n- 通过\"Grounding\"模式，模型自动识别并框选出视频中符合描述的目标对象，直接输出带坐标的时间轴，无需人工逐帧标注。\n- 一键调用\"Chapter\"和\"Highlight\"功能，Vidi 自动生成结构清晰的章节列表及高光集锦，大幅降低后期编排门槛。\n- 借助强大的语义理解能力，直接提问即可获取复杂场景的分析结果，让非技术人员也能轻松完成专业级的视频内容挖掘。\n\nVidi 将原本依赖人工经验的视频理解与编辑流程，转化为高效的自然语言交互，显著提升了视频内容的生产速度与智能化水平。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_vidi_41ec92f6.png","bytedance","Bytedance Inc.","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fbytedance_7fee2b15.png","",null,"ByteDanceOSS","https:\u002F\u002Fopensource.bytedance.com","https:\u002F\u002Fgithub.com\u002Fbytedance",[85,89],{"name":86,"color":87,"percentage":88},"Python","#3572A5",99.3,{"name":90,"color":91,"percentage":92},"Shell","#89e051",0.7,617,41,"2026-04-08T04:30:46","NOASSERTION",4,"未说明","未说明 (作为大型多模态模型，通常推理需要高性能 NVIDIA GPU，但 README 未明确具体型号或显存要求)",{"notes":101,"python":102,"dependencies":103},"README 主要提供了在线演示链接和评估脚本的使用说明。具体的模型推理（Inference）和微调（Finetune）环境配置细节未在本文档中直接列出，而是指引用户前往单独的目录（如 Vidi_7B\u002FREADME.md 或 Vidi1.5_9B\u002FREADME.md）查看。评估部分需要从 YouTube 下载视频数据（推荐使用 yt-dlp）。建议视频上传分辨率为 480p 以获得更快的处理速度。","3.x (根据命令 'python3' 推断，具体小版本未说明)",[104,105,106],"yt-dlp (用于下载评估视频)","torch (隐含依赖)","transformers (隐含依赖)",[15,35,54],"2026-03-27T02:49:30.150509","2026-04-11T21:58:56.120799",[111,116,121,126,131,136,141],{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},29850,"为什么 Vidi-7B 模型总是返回视频的总时长，而无法提取具体的精彩片段？","如果您想查找视频亮点（Highlights），请使用专门的“高亮模式”（Highlight mode），该模式不需要任何文本查询（query）。如果在本地部署的 vidi7b 中使用检索模式（Retrieval mode）配合复杂提示词效果不佳，建议尝试上传视频到官方演示页面使用高亮功能，或者优化您的提示词。目前本地部署主要支持高亮功能，其他模式如检索在复杂查询下表现可能不稳定。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fvidi\u002Fissues\u002F11",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},29851,"在使用 Demo 进行视频时间检索时出现错误，如何解决？","这通常是因为上传的视频文件已损坏，导致解码器（decord）无法加载。建议使用以下 ffmpeg 命令修复输入视频：\n`ffmpeg -i {vpath_in} -vf scale=480:-2 -c:v libx264 -c:a copy -preset ultrafast {vpath_out} -y`\n其中 `{vpath_in}` 是原视频路径，`{vpath_out}` 是输出路径。使用修复后的视频重新运行即可解决问题。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fvidi\u002Fissues\u002F4",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},29852,"模型输出的是时间百分比还是绝对时间戳？技术报告中的绝对时间戳是如何得到的？","技术报告中的绝对时间戳图示仅为任务说明。实际上，模型的默认输出格式是时间百分比（percentage），而非绝对时间戳。无论怎么调整提示词，模型默认行为都是返回百分比，这是预期行为。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fvidi\u002Fissues\u002F23",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},29853,"Vidi 模型的训练代码或微调代码是否已发布？","是的，Vidi1.5-9B 的微调代码（Finetuning code）已经发布。您可以关注官方仓库获取相关代码以进行长表单问答（VQA）或多项选择问答（MCQA）的迁移测试。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fvidi\u002Fissues\u002F15",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},29854,"在复现过程中遇到模型加载名称不匹配、缺少 `get_sattn_cls` 定义以及 Tokenizer 错误怎么办？","这些问题通常是由于代码版本更新或模型下载不完整导致的。维护者已确认相关问题在新代码中已解决。请确保您从 Hugging Face 正确下载了模型权重，并拉取最新的代码库。如果仍然遇到 `get_sattn_cls` 未定义或 Tokenizer 命名问题，请检查是否使用了与模型版本匹配的推理脚本，或参考最新文档修改模型加载名称。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fvidi\u002Fissues\u002F13",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},29855,"调用 `load_video` 函数传入 `time_range` 参数时，采样的帧索引为何比预期多一帧或偏移？","这是一个已知的计算逻辑问题。在计算帧索引时，步数（num_steps）需要加 1 才能包含结束帧。修正方法是将 `np.linspace` 的采样点数改为 `round(num_steps) + 1`。修正后的代码逻辑如下：\n```python\nidx_s = time_range[0] * vr.get_avg_fps()\nidx_e = time_range[1] * vr.get_avg_fps()\nnum_steps = (time_range[1] - time_range[0]) * fps\n# 注意这里加了 1\nframe_idx = np.linspace(round(idx_s), round(idx_e), round(num_steps) + 1, dtype=int)\n```","https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fvidi\u002Fissues\u002F16",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},29856,"Vidi 模型的权重何时发布？","模型权重已经发布。您可以访问 GitHub 仓库或 Hugging Face 页面下载。如果是刚更新，链接可能需要几天时间生效。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002Fvidi\u002Fissues\u002F5",[]]