[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-HKUDS--VideoAgent":3,"tool-HKUDS--VideoAgent":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",157379,2,"2026-04-15T23:32:42",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":76,"owner_url":77,"languages":78,"stars":110,"forks":111,"last_commit_at":112,"license":113,"difficulty_score":114,"env_os":115,"env_gpu":116,"env_ram":117,"env_deps":118,"category_tags":125,"github_topics":128,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":137,"updated_at":138,"faqs":139,"releases":140},8076,"HKUDS\u002FVideoAgent","VideoAgent","\"VideoAgent: All-in-One Agentic Framework for Video Understanding, Editing, and Remaking\"","VideoAgent 是一款全能型智能视频代理框架，旨在通过自然语言对话，让用户轻松完成视频的理解、剪辑与二次创作。它解决了传统视频处理流程中工具分散、操作门槛高以及缺乏创意辅助的痛点，将复杂的视频分析、片段组装和生成式重制整合在一个统一的系统中。\n\n无论是希望快速提取视频摘要、制作卡点剪辑的普通用户，还是从事多模态研究的研究人员或需要高效原型的开发者，都能从中受益。普通用户只需像聊天一样描述需求，VideoAgent 即可自动规划任务并调用工具，生成如解说视频、鬼畜素材、音乐混剪甚至跨文化改编内容；专业人士则可利用其开放的代理架构探索更深层的视频智能应用。\n\n其核心技术亮点在于“多模态代理”机制：不仅能深度理解视频内容（如问答、总结），还能自主决策如何使用剪辑或生成工具，实现从意图分析到成品输出的全自动闭环。相比同类工具，VideoAgent 在支持节拍同步剪辑、叙事性视频生成及跨语言适配等方面表现更为全面，真正实现了“所说即所得”的视频创作体验。","\u003Cdiv align=\"center\">\n\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_3dacc8c21c85.png' width=40%\u002F>\n\n\u003C!-- # Open Agentic Video Intelligence -->\n\u003Cbr>\n\n**🌟 Comprehensive Video Intelligence: \u003Cbr> An All-in-One Framework for Understanding, Editing, and Generation**\n\n\u003Cdiv align=\"center\">\n\n\u003C\u002Fdiv>\n\n\u003Ca href='https:\u002F\u002Fspace.bilibili.com\u002F3546868449544308'>\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fbilibili-00A1D6.svg?logo=bilibili&logoColor=white\" \u002F>\u003C\u002Fa>&nbsp;\n\u003Ca href='https:\u002F\u002Fwww.youtube.com\u002F@AI-Creator-is-here'>\u003Cimg src='https:\u002F\u002Fbadges.aleen42.com\u002Fsrc\u002Fyoutube.svg' \u002F>\u003C\u002Fa>&nbsp;\n\u003Cbr>\n\u003Ca href=\".\u002FCommunication.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F💬Feishu-Group-07c160?style=for-the-badge&logoColor=white&labelColor=1a1a2e\">\u003C\u002Fa>\n\u003Ca href=\".\u002FCommunication.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWeChat-Group-07c160?style=for-the-badge&logo=wechat&logoColor=white&labelColor=1a1a2e\">\u003C\u002Fa>\n\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n\t\n[English](readme.md) | [简体中文](readme_zh.md)\n\n\u003C\u002Fdiv>\n\n---\n\n## 📹 **Demo Video**\n\u003Cdiv>\n\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=JZkXO1NG2Ok\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_d691b54b5a01.png\" width=\"100%\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\nIn this video, we demonstrate how to use VideoAgent to:\n- Clearly articulate user requirements\n- Achieve ​intent analysis and ​autonomous tool use & planning\n- Create ​multi-modal products, including detailed workflows\n- Fully automatic generation of video overview\n\n## 🚀 Key Features\n\n🧠 - **Understanding Video Content**\u003Cbr>\nEnable in-depth analysis, summarization, and insight extraction from video media with advanced multi-modal intelligence capabilities.\n\n✂️ - **Editing Video Clips**\u003Cbr>\nProvide intuitive tools for assembling, clipping, and reconfiguring content with seamless workflow integration.\n\n🎨 - **Remaking Creative Videos**\u003Cbr>\nUtilize generative technologies to produce new, imaginative video content through AI-powered creative assistance.\n\n🔧 - **Multi-Modal Agentic Framework**\u003Cbr>\nDeliver comprehensive video intelligence through an integrated framework that combines multiple AI modalities for enhanced performance.\n\n🚀 - **Seamless Natural Language Experience**\u003Cbr>\nTransform video interaction and creation through pure conversational AI - no complex interfaces or technical expertise required, just natural dialogue with VideoAgent.\n\n \n```mermaid\ngraph TB\n    A[🎬 VideoAgent Framework] --> B[🧠 Video Understanding & Summarization]\n    A --> C[✂️ Video Editing]\n    A --> D[🎨 VIdeo Remaking]\n    \n    B --> B1[Video Q&A]\n    B --> B2[Video Summarization]\n    \n    C --> C1[Movie Edits]\n    C --> C2[Commentary Video]\n    C --> C3[Video Overview]\n    \n    D --> D1[Meme Videos]\n    D --> D2[Music Videos]\n    D --> D3[Cross-Cultural Comedy]\n```\n\n\u003C\u002Fdiv>\n\n\n\u003Cdiv align=\"center\">\n\u003Ctable>\n\u003Ctr>\n\u003Cth align=\"center\"> \u003C\u002Fth>\n\u003Cth align=\"center\">VideoAgent\u003C\u002Fth>\n\u003Cth align=\"center\">Director\u003C\u002Fth>\n\u003Cth align=\"center\">Funclip\u003C\u002Fth>\n\u003Cth align=\"center\">NarratoAI\u003C\u002Fth>\n\u003Cth align=\"center\">NotebookLM\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">Beat-synced Edits\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">Storytelling Video\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">Video Overview\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">Meme Video Remaking\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">Song Remixes\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">Cross-lingual Adaptations\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">Video Q&A\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">Sound Effects Tools\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n\n\n\n\n---\n\n## 📑 Table of Contents\n\n- [🌟 System Overview](#system-overview)\n- [🔧 Evaluation](#evaluation)\n- [🚀 Quick Start](#quick-start)\n- [🔮 Demos](#demos)\n- [💖 Acknowledgments](#acknowledgments)\n\n\n### 🔥 **Why VideoAgent?**\n\n| 🧠 **Easy-to-Use** | 🚀 **Boundless Creativity** | 🎨 **High-Quality** |\n|:---:|:---:|:---:|\n| One-Prompt Video Creation | Create From Any Ideas | Human-Quality Video Production |\n| Transform your ideas into professional videos | Workflow generation for your unique ideas | Deliver videos that meet professional standards |\n\n---\n\n## 🌟System Overview\n\nOur system introduces three key innovations for automated video processing. **Intent Analysis** captures both explicit and implicit sub-intents beyond user commands. **Autonamous Tool Use & Planning** employs graph-powered workflow generation with adaptive feedback loops for automated agent orchestration. **Multi-Modal Understanding** transforms raw input into semantically aligned visual queries for enhanced retrieval.\n\n### 🧠 **Intent Analysis**\n\t\n- 🔍 VideoAgent intelligently **decomposes user instructions** into both **explicit and implicit sub-intents**, capturing nuanced requirements that users may not explicitly state. This advanced parsing ensures **comprehensive understanding** of user goals beyond surface-level commands.\n\n- 🎯 Through an **intent-to-agent mapping mechanism**, the system identifies precisely which capabilities within the multi-agent framework are needed. This targeted approach enables **efficient activation** of relevant system components while avoiding unnecessary computational overhead for **optimal task execution**.\n\n### 🔧 **Autonomous Tool Use & Planning**\n\n- ⚙️ **A graph-powered framework** automatically translates user intents into **executable workflows**. The system dynamically selects appropriate agents and constructs optimal execution sequences. Nodes represent tool capabilities while edges define workflow connections for complex video tasks.\n\n- 🔄 Adaptive feedback loops continuously refine the planning process through **two-step self-evaluation**. This ensures robust **automated decision-making** and seamless execution. The system **self-corrects** and optimizes performance throughout the entire task lifecycle.\n\n### 🎬 **Multi-Modal Understanding**\n\n- 📋 **The Storyboard Agent** transforms raw user input into **optimized visual queries**. It first analyzes pre-captioned video material banks to understand available resources. This foundational analysis ensures the system knows exactly what content is accessible for query processing.\n\n- 💡 The agent then **decomposes user input** into **fine-grained sub-queries** that are both visually and semantically aligned. This sophisticated breakdown enables **enhanced video retrieval** by matching user intentions with the most relevant visual content in the database.\n\n\u003Cdiv align=\"center\">\n    \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_32fd141cf309.jpg' \u002F>\u003Cbr>\n\u003C\u002Fdiv>\n\n---\n\n## 🔧Evaluation\nWe conduct extensive experiments across multiple dimensions to validate the effectiveness of VideoAgent in addressing key challenges.\n\n### Boundless Creativity via Workflow Construction\n\nTo evaluate VideoAgent's **boundless creativity** through automatic workflow construction, we compared five broadly applicable agents across three backbone models. Our findings demonstrate that VideoAgent significantly outperforms other baselines on the Audio and Video datasets, showcasing its **creative workflow generation capabilities** through graph-structured guidance and self-reflection driven by dedicated self-evaluation feedback. Furthermore, we observe that VideoAgent exhibits superior and more stable **creative performance** under the Claude 3.7 backbone compared to GPT-4o and Deepseek-v3, while other baseline methods show fluctuations across different backbones. This highlights VideoAgent's ability to **unleash boundless creativity** by automatically constructing diverse and effective workflows that adapt to various user requirements, with more capable LLMs achieving deeper comprehension and providing more robust creative solutions for complex graph-based tasks.\n\n\u003Cdiv align=\"center\">\n    \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_e5e7edee76a1.png' \u002F>\u003Cbr>\n    \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_59320c791e8c.png' \u002F>\u003Cbr>\n\u003C\u002Fdiv>\n\n### Superior Multimodal Understanding\n\nTo validate our multimodal understanding capabilities, we conducted text-to-video retrieval experiments using shuffled caption queries. The evaluation employs three metrics to assess our model's ability to retrieve corresponding visual content: Recall measures the model's ability to correctly reorder shuffled video clips by comparing retrieved clip midpoints against ground truth positions; Embedding Matching-based score assesses coarse-grained alignment between generated videos and high-level caption summaries; and Intersection over Union quantifies temporal alignment accuracy at the clip level by computing the ratio of temporal overlap to total coverage between retrieved and ground truth intervals. The experimental results demonstrate that our approach can retrieve more accurate video segments, thereby showcasing our precise multimodal understanding capabilities.\n\n\n\u003Cdiv align=\"center\">\n    \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_54af21318d77.png' \u002F>\u003Cbr>\n\u003C\u002Fdiv>\n\n\n### More Iterations, Better Performance\n\nWe investigate VideoAgent's iterative refinement capabilities by analyzing the impact of reflection rounds on performance. Through comprehensive hyperparameter experiments on workflow composition across two datasets using three LLM backbones, we demonstrate VideoAgent's **notable self-improvement ability**. The results reveal that while early iterations produce baseline results, our system's **adaptive reflection mechanism** drives significant performance gains with each subsequent round. VideoAgent achieves **consistent workflow composition success rates of 0.95** across all tested configurations, showcasing its **robust self-correction capabilities** and **reliable high-quality output** regardless of the underlying LLM backbone.\n\u003Cdiv align=\"center\">\n    \u003Cdiv style=\"display: flex; justify-content: center; width: 80%; flex-wrap: nowrap;\">\n        \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_6982641949fd.jpg' style=\"margin: 0 5px; width: 400px;\" \u002F>\n\t\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_8029aba3a304.jpg' style=\"margin: 0 5px; width: 400px;\" \u002F>\n    \u003C\u002Fdiv>\n\u003C\u002Fdiv>\n\n---\n\n## 🚀Quick Start\n\n### 🖥️ **Environment**\n\n```\nGPU Memory: 8GB  \nOS: Linux, Windows\n```\n\n### 📥 **Clone and Install**\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FHKUDS\u002FVideoAgent.git\nconda create --name videoagent python=3.10\nconda activate videoagent\nconda install -y -c conda-forge pynini==2.1.5 ffmpeg\npip install -r requirements.txt\n```\n\n### 📦 **Model Download**\n\n```bash\n# Download CosyVoice\ncd tools\u002FCosyVoice\nhuggingface-cli download PillowTa1k\u002FCosyVoice --local-dir pretrained_models\n```\n\n```bash\n# Download fish-speech\ncd tools\u002Ffish-speech\nhuggingface-cli download fishaudio\u002Ffish-speech-1.5 --local-dir checkpoints\u002Ffish-speech-1.5\n```\n\n```bash\n# Download seed-vc\ncd tools\u002Fseed-vc\nhuggingface-cli download PillowTa1k\u002Fseed-vc --local-dir checkpoints\n```\n\n```bash\n# Download DiffSinger\ncd tools\u002FDiffSinger\nhuggingface-cli download PillowTa1k\u002FDiffSinger --local-dir checkpoints\n```\n\n```bash\n# Download Whisper\ncd tools\nhuggingface-cli download openai\u002Fwhisper-large-v3-turbo --local-dir whisper-large-v3-turbo\n```\n\n```bash\n# Make sure git-lfs is installed (https:\u002F\u002Fgit-lfs.com)\ngit lfs install\n```\n\n```bash\n# Download ImageBind\ncd tools\nmkdir .checkpoints\ncd .checkpoints\nwget https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fimagebind\u002Fimagebind_huge.pth\n```\n\n**🌟 Multiple models are available for your convenience; you may wish to download only those relevant to your project.**\n\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth align=\"center\">Feature Type\u003C\u002Fth>\n    \u003Cth align=\"center\">Video Demo\u003C\u002Fth>\n    \u003Cth align=\"center\">Required Models\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">Cross Talk\u003C\u002Ftd>\n    \u003Ctd align=\"center\">English Stand-up Comedy to Chinese Crosstalk\u003C\u002Ftd>\n    \u003Ctd align=\"center\">CosyVoice, Whisper, ImageBind\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">Talk Show\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Chinese Crosstalk to English Stand-up Comedy\u003C\u002Ftd>\n    \u003Ctd align=\"center\">CosyVoice, Whisper, ImageBind\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">MAD TTS\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Xiao-Ming-Jian-Mo(小明剑魔) Meme\u003C\u002Ftd>\n    \u003Ctd align=\"center\">fish-speech\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">MAD SVC\u003C\u002Ftd>\n    \u003Ctd align=\"center\">AI Music Videos\u003C\u002Ftd>\n    \u003Ctd align=\"center\">DiffSinger, seed-vc, Whisper, ImageBind\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">Rhythm\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Spider-Man: Across the Spider-Verse\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Whisper, ImageBind\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">Comm\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Commentary Video\u003C\u002Ftd>  \n    \u003Ctd align=\"center\">CosyVoice, Whisper, ImageBind\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">News\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Tech News: OpenAI's GPT-4o Image Generation Release\u003C\u002Ftd>\n    \u003Ctd align=\"center\">CosyVoice, Whisper, ImageBind\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">Video QA\u002FSummarization\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Dune 2 Movie Cast Update Podcast\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Whisper\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003C\u002Fdiv>\n\n### 🤖 **LLM Configuration**\n\n```bash\n# VideoAgent\\environment\\config\\config.yml\n# Applicable scenarios and LLM configuration\n# Claude is required as it powers the Agentic Graph Router \nllm:\n  # Video Remixing\u002FTTS\u002FSVC\u002FStand-up\u002FCrossTalk\n  deepseek_api_key: \"\"  \n  deepseek_base_url: \"\"  \n\n  # Agentic Graph Router\u002FTTS\u002FSVC\u002FStand-up\u002FCrossTalk\n  claude_api_key: \"\"  \n  claude_base_url: \"\"\n\n  # Video Editing\u002FOverview\u002FSummarization\u002FQA\u002FCommentary Video\n  gpt_api_key: \"\"  \n  gpt_base_url: \"\"  \n\n  # MLLM for caption and fine-grained video understanding\n  gemini_api_key: \"\"  \n  gemini_base_url: \"\"  \n```\n\n### 🎯 **Usage**\n\n```bash\n# With the configuration now complete, proceed to run the following instructions:\npython main.py\n# The console will output:\nUser Requirement: ...\n# Requirement Example:\n# 1. I need to create a reworded version of an existing video where the speech content is modified while maintaining the original speaker's voice. The video should have the same visuals as the original, but with updated dialogue that follows my specific requirements.\n# 2. I have a standup comedy script that I'd like to turn into a professional-looking video. I need the script to be performed with good comedic timing and audience reactions, then matched with relevant video footage to create a complete standup comedy special. I already have a reference script and some footage I want to use for the video.\n```\nThe current LLM selections are optimized for each function.\n\nYou can also adjust the model names in `VideoAgent\\environment\\config\\llm.py` if needed.\n\n---\n\n## 🔮Demos\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1C9Z6Y3ESo\u002F\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_a7454db8780e.png\" width=\"100%\">\u003C\u002Fa>\nMovie Edits\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1ucZ6YmEBU\u002F\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_da3543d322f9.png\" width=\"100%\">\u003C\u002Fa>\nMeme Videos\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1t8ZCYsEeA\u002F\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_8a933a959dfc.png\" width=\"100%\">\u003C\u002Fa>\nMusic Videos\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1ucZ6YmESg\u002F\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_b8d46693627f.png\" width=\"100%\">\u003C\u002Fa>\nVerbal Comedy Arts\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1TmZ6YjEvV\u002F\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_9749cb7969bb.png\" width=\"100%\">\u003C\u002Fa>\nCommentary Video\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV12mZ6YLEqW\u002F\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_650b5237faba.png\" width=\"100%\">\u003C\u002Fa>\nVideo Overview\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\nFor additional demo usage details, please refer to:  \n👉 [Demos Documentation](demos_documents.md)\n\n\nYou can find more fun videos on our Bilibili channel here:  \n👉 [Bilibili Homepage](https:\u002F\u002Fspace.bilibili.com\u002F3546868449544308)  \nFeel free to check it out for more entertaining content! 😊\n\n\n**Note**: All videos are used for research and demonstration purposes only. The audio and visual assets are sourced from the Internet. Please contact us if you believe any content infringes upon your intellectual property rights.\n\n---\n\n## 💖**Acknowledgments**\n\nWe express our deepest gratitude to the numerous individuals and organizations that have made VideoAgent possible. This framework stands on the shoulders of giants, benefiting from the collective wisdom of the open-source community and the groundbreaking work of researchers worldwide.\n\n### 🔧 **Open-Source Community and Service Providers**\n\n- [CosyVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice)\n- [Fish Speech](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech)\n- [Seed-VC](https:\u002F\u002Fgithub.com\u002FPlachtaa\u002Fseed-vc)\n- [DiffSinger](https:\u002F\u002Fgithub.com\u002FMoonInTheRiver\u002FDiffSinger)\n- [VideoRAG](https:\u002F\u002Fgithub.com\u002FHKUDS\u002FVideoRAG)\n- [ImageBind](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind)\n- [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)\n- [Librosa](https:\u002F\u002Fgithub.com\u002Flibrosa\u002Flibrosa)\n\n\n### 🎨 **Content Creators and Inspiration**\n\nOur work has been significantly enriched by the creative contributions of content creators across various platforms. We acknowledge:\n\n- 🎬 **Content Creators**: The talented creators behind the original video content used for testing and demonstration\n- 🎭 **Comedy Artists**: Those whose work inspired our cross-cultural adaptations  \n- 🎥 **Filmmakers**: The production teams behind the movies and TV shows featured in our demos\n\n**⚠️ Note**: All content used in our demonstrations is for research purposes only. We deeply respect the intellectual property rights of all content creators and welcome any concerns or feedback regarding content usage.\n\n---\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_66c401376960.png\" alt=\"Visitors\">\n\u003C\u002Fdiv>\n","\u003Cdiv align=\"center\">\n\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_3dacc8c21c85.png' width=40%\u002F>\n\n\u003C!-- # 开放式智能体视频智能 -->\n\u003Cbr>\n\n**🌟 全面视频智能：\u003Cbr> 一个用于理解、编辑和生成的一体化框架**\n\n\u003Cdiv align=\"center\">\n\n\u003C\u002Fdiv>\n\n\u003Ca href='https:\u002F\u002Fspace.bilibili.com\u002F3546868449544308'>\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fbilibili-00A1D6.svg?logo=bilibili&logoColor=white\" \u002F>\u003C\u002Fa>&nbsp;\n\u003Ca href='https:\u002F\u002Fwww.youtube.com\u002F@AI-Creator-is-here'>\u003Cimg src='https:\u002F\u002Fbadges.aleen42.com\u002Fsrc\u002Fyoutube.svg' \u002F>\u003C\u002Fa>&nbsp;\n\u003Cbr>\n\u003Ca href=\".\u002FCommunication.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F💬Feishu-Group-07c160?style=for-the-badge&logoColor=white&labelColor=1a1a2e\">\u003C\u002Fa>\n\u003Ca href=\".\u002FCommunication.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWeChat-Group-07c160?style=for-the-badge&logo=wechat&logoColor=white&labelColor=1a1a2e\">\u003C\u002Fa>\n\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n\t\n[English](readme.md) | [简体中文](readme_zh.md)\n\n\u003C\u002Fdiv>\n\n---\n\n## 📹 **演示视频**\n\u003Cdiv>\n\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=JZkXO1NG2Ok\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_d691b54b5a01.png\" width=\"100%\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n在这个视频中，我们展示了如何使用VideoAgent来：\n- 清晰地表达用户需求\n- 实现意图分析以及自主工具使用与规划\n- 创作多模态内容，包括详细的流程\n- 完全自动化的视频概览生成\n\n## 🚀 核心特性\n\n🧠 - **视频内容理解**\u003Cbr>\n借助先进的多模态智能能力，实现对视频媒体的深度分析、总结及洞察提取。\n\n✂️ - **剪辑视频片段**\u003Cbr>\n提供直观的工具，用于拼接、剪切和重新编排内容，并与工作流无缝集成。\n\n🎨 - **创意视频再创作**\u003Cbr>\n利用生成式技术，在AI驱动的创意辅助下，制作出新颖且富有想象力的视频内容。\n\n🔧 - **多模态智能体框架**\u003Cbr>\n通过整合多种AI模态的综合框架，提供全面的视频智能，从而提升整体性能。\n\n🚀 - **流畅的自然语言体验**\u003Cbr>\n通过纯对话式的AI，彻底改变视频交互与创作方式——无需复杂的界面或专业技术背景，只需与VideoAgent进行自然对话即可。\n\n \n```mermaid\ngraph TB\n    A[🎬 VideoAgent框架] --> B[🧠 视频理解与总结]\n    A --> C[✂️ 视频剪辑]\n    A --> D[🎨 视频再创作]\n    \n    B --> B1[视频问答]\n    B --> B2[视频摘要]\n    \n    C --> C1[电影剪辑]\n    C --> C2[解说视频]\n    C --> C3[视频概览]\n    \n    D --> D1[表情包视频]\n    D --> D2[音乐视频]\n    D --> D3[跨文化喜剧]\n```\n\n\u003C\u002Fdiv>\n\n\n\u003Cdiv align=\"center\">\n\u003Ctable>\n\u003Ctr>\n\u003Cth align=\"center\"> \u003C\u002Fth>\n\u003Cth align=\"center\">VideoAgent\u003C\u002Fth>\n\u003Cth align=\"center\">Director\u003C\u002Fth>\n\u003Cth align=\"center\">Funclip\u003C\u002Fth>\n\u003Cth align=\"center\">NarratoAI\u003C\u002Fth>\n\u003Cth align=\"center\">NotebookLM\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">节拍同步剪辑\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">故事性视频\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">视频概览\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">表情包视频再创作\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">歌曲混音\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">跨语言改编\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">视频问答\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\">音效工具\u003C\u002Ftd>\n\u003Ctd align=\"center\">✅\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003Ctd align=\"center\">—\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n\n\n\n\n---\n\n## 📑 目录\n\n- [🌟 系统概述](#system-overview)\n- [🔧 评估](#evaluation)\n- [🚀 快速入门](#quick-start)\n- [🔮 演示](#demos)\n- [💖 致谢](#acknowledgments)\n\n\n### 🔥 **为什么选择VideoAgent？**\n\n| 🧠 **易于使用** | 🚀 **无限创意** | 🎨 **高质量** |\n|:---:|:---:|:---:|\n| 单一提示生成视频 | 基于任何想法创作 | 人级质量的视频制作 |\n| 将你的想法转化为专业视频 | 为你的独特创意生成工作流 | 提供符合专业标准的视频 |\n\n---\n\n## 🌟系统概述\n\n我们的系统引入了三项关键创新，用于自动化视频处理。**意图分析**能够捕捉用户指令之外的显性和隐性子意图。**自主工具使用与规划**采用图结构驱动的工作流生成，并结合自适应反馈回路，实现自动化的智能体编排。**多模态理解**则将原始输入转化为语义对齐的视觉查询，以增强检索效果。\n\n### 🧠 **意图分析**\n\t\n- 🔍 VideoAgent能够智能地将用户指令分解为**显性和隐性子意图**，从而捕捉到用户可能未明确表达的细微需求。这种高级解析确保了对用户目标的**全面理解**，而不仅仅是表面命令。\n\n- 🎯 通过**意图到智能体的映射机制**，系统能够精准识别多智能体框架中所需的特定能力。这种针对性的方法不仅实现了相关系统组件的**高效激活**，还避免了不必要的计算开销，从而达到**最佳任务执行效果**。\n\n### 🔧 **自主工具使用与规划**\n\n- ⚙️ **基于图结构的框架**会自动将用户的意图转化为**可执行的工作流**。系统会动态选择合适的智能体，并构建最优的执行序列。节点代表工具能力，边则定义复杂视频任务中的工作流连接。\n\n- 🔄 自适应反馈循环通过**两步自我评估**不断优化规划过程。这确保了强大的**自动化决策**和顺畅的执行。在整个任务生命周期中，系统会**自我修正**并持续优化性能。\n\n### 🎬 **多模态理解**\n\n- 📋 **分镜代理**会将原始用户输入转化为**优化的视觉查询**。它首先分析带有预设字幕的视频素材库，以了解可用资源。这一基础性分析确保系统能够准确掌握可用于查询处理的内容。\n\n- 💡 随后，该代理会将用户输入**分解为细粒度的子查询**，这些子查询在视觉和语义上都高度匹配。这种精细的拆解方式能够通过将用户的意图与数据库中最为相关的视觉内容相匹配，从而实现**更高效的视频检索**。\n\n\u003Cdiv align=\"center\">\n    \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_32fd141cf309.jpg' \u002F>\u003Cbr>\n\u003C\u002Fdiv>\n\n---\n\n## 🔧评估\n我们从多个维度开展了大量实验，以验证VideoAgent在应对关键挑战方面的有效性。\n\n### 通过工作流构建实现无限创意\n\n为了评估VideoAgent通过自动构建工作流所展现的**无限创意**，我们在三种骨干模型下对比了五种广泛应用的代理。研究结果表明，VideoAgent在音频和视频数据集上显著优于其他基线方法，充分展示了其通过图结构引导及自我反思机制（基于专门的自我评估反馈）所具备的**创造性工作流生成能力**。此外，我们还观察到，在Claude 3.7骨干模型下，VideoAgent的**创意表现**不仅更为出色，而且更加稳定，相比之下，GPT-4o和Deepseek-v3等则在不同骨干之间表现出波动。这凸显了VideoAgent能够通过自动构建多样且高效的工作流来适应各类用户需求，从而**释放无限创意**；同时，功能更强大的大语言模型能够带来更深入的理解，并为复杂的图结构任务提供更为稳健的创意解决方案。\n\n\u003Cdiv align=\"center\">\n    \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_e5e7edee76a1.png' \u002F>\u003Cbr>\n    \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_59320c791e8c.png' \u002F>\u003Cbr>\n\u003C\u002Fdiv>\n\n### 卓越的多模态理解能力\n\n为验证我们的多模态理解能力，我们使用打乱顺序的字幕查询进行了文本到视频的检索实验。评估采用了三项指标来衡量模型检索对应视觉内容的能力：召回率用于比较检索到的视频片段中点与真实位置之间的差异，以此评估模型正确重新排序视频片段的能力；基于嵌入匹配的评分则用来评估生成的视频与高级别字幕摘要之间的粗粒度对齐程度；而交并比则通过计算检索到的片段与真实片段之间的时间重叠部分占总覆盖范围的比例，来量化片段级别的时序对齐精度。实验结果表明，我们的方法能够检索出更为精确的视频片段，从而充分展现了我们精准的多模态理解能力。\n\n\n\u003Cdiv align=\"center\">\n    \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_54af21318d77.png' \u002F>\u003Cbr>\n\u003C\u002Fdiv>\n\n\n### 更多迭代，更好性能\n\n我们通过分析反思轮次对性能的影响，来探究VideoAgent的迭代优化能力。通过对两个数据集上的工作流组合进行综合超参数实验，并采用三种大语言模型作为骨干，我们证明了VideoAgent具有**显著的自我改进能力**。结果显示，尽管早期迭代仅能产生基准水平的结果，但随着每一轮的推进，系统的**自适应反思机制**会带来显著的性能提升。VideoAgent在所有测试配置中均实现了**0.95的稳定工作流组合成功率**，这充分体现了其**强大的自我修正能力**以及无论底层大语言模型如何都能提供**可靠高质量输出**的特点。\n\u003Cdiv align=\"center\">\n    \u003Cdiv style=\"display: flex; justify-content: center; width: 80%; flex-wrap: nowrap;\">\n        \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_6982641949fd.jpg' style=\"margin: 0 5px; width: 400px;\" \u002F>\n\t\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_8029aba3a304.jpg' style=\"margin: 0 5px; width: 400px;\" \u002F>\n    \u003C\u002Fdiv>\n\u003C\u002Fdiv>\n\n---\n\n## 🚀快速入门\n\n### 🖥️ **环境要求**\n\n```\n显存：8GB  \n操作系统：Linux、Windows\n```\n\n### 📥 **克隆与安装**\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FHKUDS\u002FVideoAgent.git\nconda create --name videoagent python=3.10\nconda activate videoagent\nconda install -y -c conda-forge pynini==2.1.5 ffmpeg\npip install -r requirements.txt\n```\n\n### 📦 **模型下载**\n\n```bash\n# 下载CosyVoice\ncd tools\u002FCosyVoice\nhuggingface-cli download PillowTa1k\u002FCosyVoice --local-dir pretrained_models\n```\n\n```bash\n# 下载fish-speech\ncd tools\u002Ffish-speech\nhuggingface-cli download fishaudio\u002Ffish-speech-1.5 --local-dir checkpoints\u002Ffish-speech-1.5\n```\n\n```bash\n# 下载seed-vc\ncd tools\u002Fseed-vc\nhuggingface-cli download PillowTa1k\u002Fseed-vc --local-dir checkpoints\n```\n\n```bash\n# 下载DiffSinger\ncd tools\u002FDiffSinger\nhuggingface-cli download PillowTa1k\u002FDiffSinger --local-dir checkpoints\n```\n\n```bash\n# 下载Whisper\ncd tools\nhuggingface-cli download openai\u002Fwhisper-large-v3-turbo --local-dir whisper-large-v3-turbo\n```\n\n```bash\n# 确保已安装git-lfs (https:\u002F\u002Fgit-lfs.com)\ngit lfs install\n```\n\n```bash\n# 下载ImageBind\ncd tools\nmkdir .checkpoints\ncd .checkpoints\nwget https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fimagebind\u002Fimagebind_huge.pth\n```\n\n**🌟 为了方便起见，我们提供了多种模型供您选择；您可以根据项目需求仅下载相关模型。**\n\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth align=\"center\">功能类型\u003C\u002Fth>\n    \u003Cth align=\"center\">视频演示\u003C\u002Fth>\n    \u003Cth align=\"center\">所需模型\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">跨语言对话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">英语脱口秀转中文相声\u003C\u002Ftd>\n    \u003Ctd align=\"center\">CosyVoice、Whisper、ImageBind\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">脱口秀\u003C\u002Ftd>\n    \u003Ctd align=\"center\">中文相声转英语脱口秀\u003C\u002Ftd>\n    \u003Ctd align=\"center\">CosyVoice、Whisper、ImageBind\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">MAD TTS\u003C\u002Ftd>\n    \u003Ctd align=\"center\">小明剑魔表情包\u003C\u002Ftd>\n    \u003Ctd align=\"center\">fish-speech\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">MAD SVC\u003C\u002Ftd>\n    \u003Ctd align=\"center\">AI音乐视频\u003C\u002Ftd>\n    \u003Ctd align=\"center\">DiffSinger、seed-vc、Whisper、ImageBind\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">节奏感\u003C\u002Ftd>\n    \u003Ctd align=\"center\">蜘蛛侠：纵横宇宙\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Whisper、ImageBind\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">评论\u003C\u002Ftd>\n    \u003Ctd align=\"center\">解说视频\u003C\u002Ftd>  \n    \u003Ctd align=\"center\">CosyVoice、Whisper、ImageBind\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">新闻\u003C\u002Ftd>\n    \u003Ctd align=\"center\">科技新闻：OpenAI发布GPT-4o图像生成功能\u003C\u002Ftd>\n    \u003Ctd align=\"center\">CosyVoice、Whisper、ImageBind\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">视频问答\u002F总结\u003C\u002Ftd>\n    \u003Ctd align=\"center\">沙丘2电影演员阵容更新播客\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Whisper\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003C\u002Fdiv>\n\n### 🤖 **LLM配置**\n\n```bash\n\n# VideoAgent\\environment\\config\\config.yml\n# 适用场景与大模型配置\n# 需要使用 Claude，因为它为智能体图路由提供支持\nllm:\n  # 视频混剪\u002FTTS\u002FSVC\u002F脱口秀\u002F相声\n  deepseek_api_key: \"\"  \n  deepseek_base_url: \"\"  \n\n  # 智能体图路由\u002FTTS\u002FSVC\u002F脱口秀\u002F相声\n  claude_api_key: \"\"  \n  claude_base_url: \"\"\n\n  # 视频剪辑\u002F概览\u002F摘要\u002FQA\u002F解说视频\n  gpt_api_key: \"\"  \n  gpt_base_url: \"\"  \n\n  # 用于字幕生成和细粒度视频理解的多模态大模型\n  gemini_api_key: \"\"  \n  gemini_base_url: \"\"  \n```\n\n### 🎯 **使用方法**\n\n```bash\n# 配置完成后，请按照以下步骤运行：\npython main.py\n# 控制台将输出：\n用户需求：...\n# 需求示例：\n# 1. 我需要制作一段现有视频的改写版本，其中语音内容经过修改，但仍保留原说话人的声音。视频的画面应与原版一致，但对话需根据我的具体要求进行更新。\n# 2. 我有一份脱口秀剧本，希望将其制作成一部专业水准的视频作品。我需要演员以出色的喜剧节奏和观众反应来演绎这段剧本，并将其与相关视频素材匹配，最终形成完整的脱口秀特别节目。我已经准备好了参考剧本和部分可用于视频制作的素材。\n```\n当前的大模型选择已针对各项功能进行了优化。\n\n如有需要，您也可以在 `VideoAgent\\environment\\config\\llm.py` 中调整模型名称。\n\n---\n\n## 🔮演示视频\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1C9Z6Y3ESo\u002F\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_a7454db8780e.png\" width=\"100%\">\u003C\u002Fa>\n电影剪辑\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1ucZ6YmEBU\u002F\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_da3543d322f9.png\" width=\"100%\">\u003C\u002Fa>\n表情包视频\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1t8ZCYsEeA\u002F\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_8a933a959dfc.png\" width=\"100%\">\u003C\u002Fa>\n音乐视频\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1ucZ6YmESg\u002F\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_b8d46693627f.png\" width=\"100%\">\u003C\u002Fa>\n语言类喜剧艺术\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1TmZ6YjEvV\u002F\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_9749cb7969bb.png\" width=\"100%\">\u003C\u002Fa>\n解说视频\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV12mZ6YLEqW\u002F\" target='_blank'>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_650b5237faba.png\" width=\"100%\">\u003C\u002Fa>\n视频概览\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n更多演示视频的使用详情，请参阅：  \n👉 [演示文档](demos_documents.md)\n\n\n您还可以在我们的哔哩哔哩频道找到更多精彩视频：  \n👉 [哔哩哔哩主页](https:\u002F\u002Fspace.bilibili.com\u002F3546868449544308)  \n欢迎随时查看，获取更多有趣的优质内容！😊\n\n\n**注**：所有视频仅用于研究与演示目的。音频及视频素材均来源于网络。如您认为任何内容侵犯了您的知识产权，请及时与我们联系。\n\n---\n\n## 💖**致谢**\n\n我们向众多使 VideoAgent 成为可能的个人和机构致以最深切的谢意。本框架站在巨人的肩膀上，得益于开源社区的集体智慧以及全球研究人员的开创性工作。\n\n### 🔧 **开源社区与服务提供商**\n\n- [CosyVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice)\n- [Fish Speech](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech)\n- [Seed-VC](https:\u002F\u002Fgithub.com\u002FPlachtaa\u002Fseed-vc)\n- [DiffSinger](https:\u002F\u002Fgithub.com\u002FMoonInTheRiver\u002FDiffSinger)\n- [VideoRAG](https:\u002F\u002Fgithub.com\u002FHKUDS\u002FVideoRAG)\n- [ImageBind](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind)\n- [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)\n- [Librosa](https:\u002F\u002Fgithub.com\u002Flibrosa\u002Flibrosa)\n\n\n### 🎨 **内容创作者与灵感来源**\n\n我们的工作因来自各平台的内容创作者们的创意贡献而更加丰富。在此特别感谢：\n\n- 🎬 **内容创作者**：那些为我们测试与演示所用原始视频内容做出杰出贡献的创作者们\n- 🎭 **喜剧艺术家**：其作品启发了我们的跨文化改编创作\n- 🎥 **影视制作团队**：参与制作我们在演示中展示的电影与电视剧的幕后团队\n\n**⚠️ 注意**：所有演示中使用的素材均仅用于研究目的。我们对所有内容创作者的知识产权深表尊重，并欢迎就内容使用问题提出任何关切或反馈意见。\n\n---\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_readme_66c401376960.png\" alt=\"访问量\">\n\u003C\u002Fdiv>","# VideoAgent 快速上手指南\n\nVideoAgent 是一个全能型视频智能框架，集视频理解、剪辑与创作为一体。通过自然语言交互，它能自动分析用户意图、规划工作流并生成高质量的多模态视频内容。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux 或 Windows\n*   **GPU 显存**: 至少 8GB\n*   **Python 版本**: 3.10\n*   **前置工具**: \n    *   `conda` (推荐用于环境管理)\n    *   `git` 及 `git-lfs` (用于大文件下载)\n    *   `ffmpeg` (视频处理依赖)\n\n> **提示**：请确保已安装 `git-lfs`，可通过访问 [git-lfs.com](https:\u002F\u002Fgit-lfs.com) 下载安装，或在终端运行 `git lfs install` 进行初始化。\n\n## 安装步骤\n\n### 1. 克隆项目与环境创建\n\n首先克隆代码仓库并创建独立的 Conda 环境：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FHKUDS\u002FVideoAgent.git\ncd VideoAgent\n\nconda create --name videoagent python=3.10\nconda activate videoagent\n\n# 安装基础依赖 (包含 pynini 和 ffmpeg)\nconda install -y -c conda-forge pynini==2.1.5 ffmpeg\n\n# 安装 Python 依赖包\npip install -r requirements.txt\n```\n\n### 2. 下载模型权重\n\nVideoAgent 依赖多个预训练模型（语音、视频理解等）。请依次执行以下命令下载所需模型。\n\n> **注意**：以下命令使用 Hugging Face 下载。如果网络受限，建议配置国内镜像源或使用代理加速。\n\n```bash\n# 1. 下载 CosyVoice (语音合成)\ncd tools\u002FCosyVoice\nhuggingface-cli download PillowTa1k\u002FCosyVoice --local-dir pretrained_models\n\n# 2. 下载 fish-speech (语音生成)\ncd ..\u002Ffish-speech\nhuggingface-cli download fishaudio\u002Ffish-speech-1.5 --local-dir checkpoints\u002Ffish-speech-1.5\n\n# 3. 下载 seed-vc (语音转换)\ncd ..\u002Fseed-vc\nhuggingface-cli download PillowTa1k\u002Fseed-vc --local-dir checkpoints\n\n# 4. 下载 DiffSinger (歌声合成)\ncd ..\u002FDiffSinger\nhuggingface-cli download PillowTa1k\u002FDiffSinger --local-dir checkpoints\n\n# 5. 下载 Whisper (语音识别)\ncd ..\nhuggingface-cli download openai\u002Fwhisper-large-v3-turbo --local-dir whisper-large-v3-turbo\n\n# 6. 下载 ImageBind (多模态嵌入)\nmkdir .checkpoints\ncd .checkpoints\nwget https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fimagebind\u002Fimagebind_huge.pth\n```\n\n## 基本使用\n\nVideoAgent 的核心优势在于**自然语言交互**。您无需编写复杂代码，只需通过对话描述需求，系统即可自动完成意图分析、工具调用和视频生成。\n\n### 使用流程示例\n\n虽然具体的启动脚本可能因版本更新而异，但标准的使用逻辑如下：\n\n1.  **准备素材**：将您的原始视频文件放入项目指定的输入目录（通常为 `inputs\u002F` 或类似文件夹，具体请参考项目最新文档）。\n2.  **启动服务**：在项目根目录下运行主程序入口（通常为 `python main.py` 或类似的启动脚本）。\n3.  **输入指令**：在命令行或交互界面中输入自然语言指令。\n\n**最简单的使用示例：**\n\n假设您想将一段长视频自动剪辑成带解说的短视频概述，您可以直接输入：\n\n```text\n请分析 input_video.mp4，提取精彩片段，生成一个带有背景音乐和解说的视频概述。\n```\n\n系统将自动执行以下步骤：\n*   **意图分析**：识别出“提取片段”、“添加解说”、“添加背景音乐”等子任务。\n*   **工作流规划**：调用 Whisper 进行转录，利用 Storyboard Agent 检索关键画面，调度编辑工具进行剪辑，并使用 CosyVoice 生成解说音频。\n*   **自动执行**：输出最终的视频文件。\n\n> **提示**：VideoAgent 支持多种创意任务，如“制作节奏卡点视频”、“生成跨文化喜剧短片”或“视频问答”。只需像与人对话一样描述您的需求即可。","一位短视频创作者需要将长达 2 小时的海外游戏直播录像，快速改编成适合国内平台传播的“跨文化搞笑集锦”，并自动匹配节奏感强的背景音乐。\n\n### 没有 VideoAgent 时\n- **内容筛选耗时极长**：必须人工逐帧观看 2 小时素材，手动记录搞笑片段的时间戳，效率极低且容易遗漏亮点。\n- **跨文化理解门槛高**：难以准确识别外语梗或特定文化背景下的笑点，导致剪辑出的内容本土观众无法共鸣。\n- **多工具切换繁琐**：需要分别使用转录工具生成字幕、剪辑软件进行画面裁剪、另外的 AI 工具生成配乐，工作流断裂且数据搬运麻烦。\n- **音画同步困难**：手动调整视频切片以匹配音乐节拍（Beat-synced）需要极高的专业技巧，反复调试耗费大量时间。\n- **叙事逻辑构建难**：缺乏自动化的故事线梳理，最终视频往往只是片段堆砌，缺乏连贯的起承转合。\n\n### 使用 VideoAgent 后\n- **智能意图分析与定位**：VideoAgent 自动分析全片，精准提取高光搞笑片段并生成详细的时间轴摘要，将筛选时间从数小时缩短至几分钟。\n- **跨语言自适应改编**：利用多模态智能，VideoAgent 自动识别外语笑点并将其转化为符合中文语境的梗，甚至自动生成跨文化解说词。\n- **一站式全流程自动化**：只需通过自然语言对话下达指令，VideoAgent 即可在统一框架内完成理解、剪辑、配乐及特效添加，无需切换任何软件。\n- **自动卡点剪辑**：内置的节拍同步功能自动将视频切口与背景音乐节奏完美对齐，轻松产出专业级的踩点视频。\n- **自主叙事重构**：VideoAgent 自动规划视频结构，将零散片段重组为有开头、高潮和结尾的完整故事线，显著提升完播率。\n\nVideoAgent 将原本需要专业团队协作一整天的复杂视频再造工作，转变为单人通过自然对话即可瞬间完成的创意流程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHKUDS_VideoAgent_3dacc8c2.png","HKUDS","✨Data Intelligence Lab@HKU✨","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FHKUDS_fc32cc87.jpg",null,"https:\u002F\u002Fsites.google.com\u002Fview\u002Fchaoh","https:\u002F\u002Fgithub.com\u002FHKUDS",[79,83,87,91,95,99,103,107],{"name":80,"color":81,"percentage":82},"Python","#3572A5",98.3,{"name":84,"color":85,"percentage":86},"Shell","#89e051",0.7,{"name":88,"color":89,"percentage":90},"Cuda","#3A4E3A",0.4,{"name":92,"color":93,"percentage":94},"C","#555555",0.3,{"name":96,"color":97,"percentage":98},"Jupyter Notebook","#DA5B0B",0.2,{"name":100,"color":101,"percentage":102},"Dockerfile","#384d54",0.1,{"name":104,"color":105,"percentage":106},"C++","#f34b7d",0,{"name":108,"color":109,"percentage":106},"CSS","#663399",575,86,"2026-04-15T16:29:28","MIT",4,"Linux, Windows","需要 GPU，显存至少 8GB，具体 CUDA 版本未说明","未说明",{"notes":119,"python":120,"dependencies":121},"建议使用 conda 管理环境。首次运行前需通过 huggingface-cli 下载多个模型（包括 CosyVoice, fish-speech, seed-vc, DiffSinger, Whisper-large-v3-turbo, ImageBind），请确保已安装 git-lfs。","3.10",[122,123,124],"pynini==2.1.5","ffmpeg","requirements.txt 中列出的其他依赖",[13,35,126,127],"视频","音频",[129,130,131,132,133,134,135,136],"agents","llm-agents","video-editing","video-understanding","notebooklm","audio-editing","audio-understanding","podcast","2026-03-27T02:49:30.150509","2026-04-16T15:50:52.069717",[],[]]