[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-modelscope--FunClip":3,"tool-modelscope--FunClip":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":79,"owner_website":81,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":10,"env_os":96,"env_gpu":97,"env_ram":97,"env_deps":98,"category_tags":101,"github_topics":102,"view_count":111,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":112,"updated_at":113,"faqs":114,"releases":145},912,"modelscope\u002FFunClip","FunClip","Open-source, accurate and easy-to-use video speech recognition & clipping tool, LLM based AI clipping intergrated.","FunClip 是一款开源、精准且易用的视频语音识别与智能剪辑工具。它能够自动识别视频中的语音内容并生成字幕，用户只需选择字幕中的文本片段或特定说话人，即可快速提取对应的视频段落，实现精准剪辑。\n\n该工具主要解决了视频后期处理中手动剪辑效率低、精度差的问题。传统剪辑需要反复听录和定位，而 FunClip 通过自动语音识别（ASR）将音频转为文字，让用户可以直接通过文字内容选取需要裁剪的部分，大大提升了视频剪辑的效率与准确性。\n\nFunClip 适合视频创作者、自媒体运营者、教育工作者以及需要进行视频内容处理的普通用户。对于开发者或研究人员，它也提供了模型定制和本地化部署的灵活性。\n\n其技术亮点在于集成了阿里巴巴达摩院开源的 Paraformer 大规模语音识别模型，支持中文热词定制，识别准确率高。同时，FunClip 还引入了说话人识别功能，可以按人声分离剪辑。最新版本更融合了大语言模型（LLM）能力，能够通过自然语言指令理解剪辑意图，实现“智能剪辑”，例如用户只需描述想要的内容，AI 便可自动定位相应片段。","[![SVG Banners](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_51d093662fa2.png)](https:\u002F\u002Fgithub.com\u002FAkshay090\u002Fsvg-banners)\n\n### \u003Cp align=\"center\">「[简体中文](.\u002FREADME_zh.md) | English」\u003C\u002Fp>\n\n**\u003Cp align=\"center\"> ⚡ Open-source, accurate and easy-to-use video clipping tool \u003C\u002Fp>**\n**\u003Cp align=\"center\"> 🧠 Explore LLM based video clipping with FunClip \u003C\u002Fp>**\n\n\u003Cp align=\"center\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_55e7a5302cfb.jpg\" width=444\u002F>\u003C\u002Fp>\n\n\u003Cp align=\"center\" class=\"trendshift\">\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F10126\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_17f4a7d6fa98.png\" alt=\"alibaba-damo-academy%2FFunClip | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"300\" height=\"55\"\u002F>\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cdiv align=\"center\">  \n\u003Ch4>\n\u003Ca href=\"#What's New\"> What's New \u003C\u002Fa>\n｜\u003Ca href=\"#On Going\"> On Going \u003C\u002Fa>\n｜\u003Ca href=\"#Install\"> Install \u003C\u002Fa>\n｜\u003Ca href=\"#Usage\"> Usage \u003C\u002Fa>\n｜\u003Ca href=\"#Community\"> Community \u003C\u002Fa>\n\u003C\u002Fh4>\n\u003C\u002Fdiv>\n\n**FunClip** is a fully open-source, locally deployed automated video clipping tool. It leverages Alibaba TONGYI speech lab's open-source [FunASR](https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunASR) Paraformer series models to perform speech recognition on videos. Then, users can freely choose text segments or speakers from the recognition results and click the clip button to obtain the video clip corresponding to the selected segments (Quick Experience [Modelscope⭐](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Fiic\u002Ffunasr_app_clipvideo\u002Fsummary) [HuggingFace🤗](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FR1ckShi\u002FFunClip)).\n\n## Highlights🎨\n\n- 🔥Try AI clipping using LLM in FunClip now.\n- FunClip integrates Alibaba's open-source industrial-grade model [Paraformer-Large](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002Fspeech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch\u002Fsummary), which is one of the best-performing open-source Chinese ASR models available, with over 13 million downloads on Modelscope. It can also accurately predict timestamps in an integrated manner.\n- FunClip incorporates the hotword customization feature of [SeACo-Paraformer](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002Fspeech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch\u002Fsummary), allowing users to specify certain entity words, names, etc., as hotwords during the ASR process to enhance recognition results.\n- FunClip integrates the [CAM++](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002Fspeech_campplus_sv_zh-cn_16k-common\u002Fsummary) speaker recognition model, enabling users to use the auto-recognized speaker ID as the target for trimming, to clip segments from a specific speaker.\n- The functionalities are realized through Gradio interaction, offering simple installation and ease of use. It can also be deployed on a server and accessed via a browser.\n- FunClip supports multi-segment free clipping and automatically returns full video SRT subtitles and target segment SRT subtitles, offering a simple and convenient user experience.\n\n\u003Ca name=\"What's New\">\u003C\u002Fa>\n## What's New🚀\n- 2024\u002F06\u002F12 FunClip supports recognize and clip English audio files now. Run `python funclip\u002Flaunch.py -l en` to try.\n- 🔥2024\u002F05\u002F13 FunClip v2.0.0 now supports smart clipping with large language models, integrating models from the qwen series, GPT series, etc., providing default prompts. You can also explore and share tips for setting prompts, the usage is as follows:\n  1. After the recognition, select the name of the large model and configure your own apikey;\n  2. Click on the 'LLM Inference' button, and FunClip will automatically combine two prompts with the video's srt subtitles;\n  3. Click on the 'AI Clip' button, and based on the output results of the large language model from the previous step, FunClip will extract the timestamps for clipping;\n  4. You can try changing the prompt to leverage the capabilities of the large language models to get the results you want;\n- 2024\u002F05\u002F09 FunClip updated to v1.1.0, including the following updates and fixes:\n  - Support configuration of output file directory, saving ASR intermediate results and video clipping intermediate files;\n  - UI upgrade (see guide picture below), video and audio cropping function are on the same page now, button position adjustment;\n  - Fixed a bug introduced due to FunASR interface upgrade, which has caused some serious clipping errors;\n  - Support configuring different start and end time offsets for each paragraph;\n  - Code update, etc;\n- 2024\u002F03\u002F06 Fix bugs in using FunClip with command line.\n- 2024\u002F02\u002F28 [FunASR](https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunASR) is updated to 1.0 version, use FunASR1.0 and SeACo-Paraformer to conduct ASR with hotword customization.\n- 2023\u002F10\u002F17 Fix bugs in multiple periods chosen, used to return video with wrong length.\n- 2023\u002F10\u002F10 FunClipper now supports recognizing with speaker diarization ability, choose 'yes' button in 'Recognize Speakers' and you will get recognition results with speaker id for each sentence. And then you can clip out the periods of one or some speakers (e.g. 'spk0' or 'spk0#spk3') using FunClipper.\n\n\u003Ca name=\"On Going\">\u003C\u002Fa>\n## On Going🌵\n\n- [x] FunClip will support Whisper model for English users, coming soon (ASR using Whisper with timestamp requires massive GPU memory, we support timestamp prediction for vanilla Paraformer in FunASR to achieving this).\n- [x] FunClip will further explore the abilities of large langage model based AI clipping, welcome to discuss about prompt setting and clipping, etc.\n- [ ] Reverse periods choosing while clipping.\n- [ ] Removing silence periods.\n\n\u003Ca name=\"Install\">\u003C\u002Fa>\n## Install🔨\n\n### Python env install\n\nFunClip basic functions rely on a python environment only.\n```shell\n# clone funclip repo\ngit clone https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunClip.git\ncd FunClip\n# install Python requirments\npip install -r .\u002Frequirements.txt\n```\n\n### imagemagick install (Optional)\n\nIf you want to clip video file with embedded subtitles\n\n1. ffmpeg and imagemagick is required\n\n- On Ubuntu\n```shell\napt-get -y update && apt-get -y install ffmpeg imagemagick\nsed -i 's\u002Fnone\u002Fread,write\u002Fg' \u002Fetc\u002FImageMagick-6\u002Fpolicy.xml\n```\n- On MacOS\n```shell\nbrew install imagemagick\nsed -i 's\u002Fnone\u002Fread,write\u002Fg' \u002Fusr\u002Flocal\u002FCellar\u002Fimagemagick\u002F7.1.1-8_1\u002Fetc\u002FImageMagick-7\u002Fpolicy.xml \n```\n- On Windows\n\nDownload and install imagemagick https:\u002F\u002Fimagemagick.org\u002Fscript\u002Fdownload.php#windows\n\nFind your python install path and change the `IMAGEMAGICK_BINARY` to your imagemagick install path in file `site-packages\\moviepy\\config_defaults.py`\n\n2. Download font file to funclip\u002Ffont\n\n```shell\nwget https:\u002F\u002Fisv-data.oss-cn-hangzhou.aliyuncs.com\u002Fics\u002FMaaS\u002FClipVideo\u002FSTHeitiMedium.ttc -O font\u002FSTHeitiMedium.ttc\n```\n\u003Ca name=\"Usage\">\u003C\u002Fa>\n## Use FunClip\n\n### A. Use FunClip as local Gradio Service\nYou can establish your own FunClip service which is same as [Modelscope Space](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Fiic\u002Ffunasr_app_clipvideo\u002Fsummary) as follow:\n```shell\npython funclip\u002Flaunch.py\n# '-l en' for English audio recognize\n# '-p xxx' for setting port number\n# '-s True' for establishing service for public accessing\n```\nthen visit ```localhost:7860``` you will get a Gradio service like below and you can use FunClip following the steps:\n\n- Step1: Upload your video file (or try the example videos below)\n- Step2: Copy the text segments you need to 'Text to Clip'\n- Step3: Adjust subtitle settings (if needed)\n- Step4: Click 'Clip' or 'Clip and Generate Subtitles'\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_4dff20f63a10.jpg\"\u002F>\n\nFollow the guide below to explore LLM based clipping:\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_bdf4187753c1.png\" width=360\u002F>\n\n### B. Experience FunClip in Modelscope\n\n[FunClip@Modelscope Space⭐](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Fiic\u002Ffunasr_app_clipvideo\u002Fsummary)\n\n[FunClip@HuggingFace Space🤗](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FR1ckShi\u002FFunClip)\n\n### C. Use FunClip in command line\n\nFunClip supports you to recognize and clip with commands:\n```shell\n# step1: Recognize\npython funclip\u002Fvideoclipper.py --stage 1 \\\n                       --file examples\u002F2022云栖大会_片段.mp4 \\\n                       --output_dir .\u002Foutput\n# now you can find recognition results and entire SRT file in .\u002Foutput\u002F\n# step2: Clip\npython funclip\u002Fvideoclipper.py --stage 2 \\\n                       --file examples\u002F2022云栖大会_片段.mp4 \\\n                       --output_dir .\u002Foutput \\\n                       --dest_text '我们把它跟乡村振兴去结合起来，利用我们的设计的能力' \\\n                       --start_ost 0 \\\n                       --end_ost 100 \\\n                       --output_file '.\u002Foutput\u002Fres.mp4'\n```\n\n\u003Ca name=\"Community\">\u003C\u002Fa>\n## Community Communication🍟\n\nFunClip is firstly open-sourced bu FunASR team, any useful PR is welcomed.\n\nYou can also scan the following DingTalk group or WeChat group QR code to join the community group for communication.\n\n|                           DingTalk group                            |                     WeChat group                      |\n|:-------------------------------------------------------------------:|:-----------------------------------------------------:|\n| \u003Cdiv align=\"left\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_8f3b67ad66b5.png\" width=\"250\"\u002F> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_efedf7c08cb0.png\" width=\"215\"\u002F>\u003C\u002Fdiv> |\n\n## Find Speech Models in FunASR\n\n[FunASR](https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunASR) hopes to build a bridge between academic research and industrial applications on speech recognition. By supporting the training & finetuning of the industrial-grade speech recognition model released on ModelScope, researchers and developers can conduct research and production of speech recognition models more conveniently, and promote the development of speech recognition ecology. ASR for Fun！\n\n📚FunASR Paper: \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11013\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2305.11013-orange\">\u003C\u002Fa> \n\n📚SeACo-Paraformer Paper: \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.03266\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2308.03266-orange\">\u003C\u002Fa>\n\n🌟Support FunASR: \u003Ca href='https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunASR\u002Fstargazers'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Falibaba-damo-academy\u002FFunASR.svg?style=social'>\u003C\u002Fa>\n","[![SVG Banners](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_51d093662fa2.png)](https:\u002F\u002Fgithub.com\u002FAkshay090\u002Fsvg-banners)\n\n### \u003Cp align=\"center\">「[简体中文](.\u002FREADME_zh.md) | English」\u003C\u002Fp>\n\n**\u003Cp align=\"center\"> ⚡ 开源、精准、易用的视频剪辑工具 \u003C\u002Fp>**\n**\u003Cp align=\"center\"> 🧠 探索基于大语言模型（LLM）的智能视频剪辑 \u003C\u002Fp>**\n\n\u003Cp align=\"center\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_55e7a5302cfb.jpg\" width=444\u002F>\u003C\u002Fp>\n\n\u003Cp align=\"center\" class=\"trendshift\">\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F10126\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_17f4a7d6fa98.png\" alt=\"alibaba-damo-academy%2FFunClip | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"300\" height=\"55\"\u002F>\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cdiv align=\"center\">  \n\u003Ch4>\n\u003Ca href=\"#What's New\"> 最新动态 \u003C\u002Fa>\n｜\u003Ca href=\"#On Going\"> 开发中 \u003C\u002Fa>\n｜\u003Ca href=\"#Install\"> 安装 \u003C\u002Fa>\n｜\u003Ca href=\"#Usage\"> 使用 \u003C\u002Fa>\n｜\u003Ca href=\"#Community\"> 社区 \u003C\u002Fa>\n\u003C\u002Fh4>\n\u003C\u002Fdiv>\n\n**FunClip** 是一款完全开源、本地部署的自动化视频剪辑工具。它借助阿里通义实验室开源的 [FunASR](https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunASR) Paraformer 系列模型对视频进行语音识别。随后，用户可以自由选择识别结果中的文本片段或发言人，点击剪辑按钮即可获取选中片段对应的视频片段（快速体验 [Modelscope⭐](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Fiic\u002Ffunasr_app_clipvideo\u002Fsummary) [HuggingFace🤗](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FR1ckShi\u002FFunClip)）。\n\n## 亮点功能🎨\n\n- 🔥 立即在 FunClip 中尝试使用大语言模型（LLM）进行 AI 智能剪辑。\n- FunClip 集成了阿里巴巴开源的工业级模型 [Paraformer-Large](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002Fspeech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch\u002Fsummary)，它是目前性能最好的开源中文 ASR（自动语音识别）模型之一，在 Modelscope 上的下载量已超过 1300 万次，并且能够以一体化方式精准预测时间戳。\n- FunClip 集成了 [SeACo-Paraformer](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002Fspeech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch\u002Fsummary) 的热词定制功能，用户可以在 ASR 过程中将某些实体词、名称等指定为热词，以提升识别效果。\n- FunClip 集成了 [CAM++](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002Fspeech_campplus_sv_zh-cn_16k-common\u002Fsummary) 说话人识别模型，用户可以使用自动识别出的说话人 ID 作为剪辑目标，从而剪辑出特定发言人的片段。\n- 功能通过 Gradio 交互界面实现，安装简单，易于使用。也可以部署在服务器上，通过浏览器访问。\n- FunClip 支持多片段自由剪辑，并自动返回完整视频的 SRT 字幕文件和目标片段的 SRT 字幕文件，提供简单便捷的用户体验。\n\n\u003Ca name=\"What's New\">\u003C\u002Fa>\n## 最新动态🚀\n- 2024\u002F06\u002F12 FunClip 现已支持识别和剪辑英文音频文件。运行 `python funclip\u002Flaunch.py -l en` 即可尝试。\n- 🔥 2024\u002F05\u002F13 FunClip v2.0.0 现已支持基于大语言模型的智能剪辑，集成了 qwen 系列、GPT 系列等模型，提供默认提示词。你也可以探索和分享提示词设置技巧，使用方法如下：\n  1. 识别完成后，选择大模型名称并配置你自己的 API 密钥；\n  2. 点击“LLM 推理”按钮，FunClip 会自动将两个提示词与视频的 SRT 字幕组合；\n  3. 点击“AI 剪辑”按钮，根据上一步大语言模型的输出结果，FunClip 将提取出用于剪辑的时间戳；\n  4. 你可以尝试更改提示词，以利用大语言模型的能力来获得你想要的结果；\n- 2024\u002F05\u002F09 FunClip 更新至 v1.1.0，包含以下更新和修复：\n  - 支持配置输出文件目录，保存 ASR 中间结果和视频剪辑中间文件；\n  - UI 升级（见下方示意图），视频和音频剪辑功能现已整合在同一页面，按钮位置调整；\n  - 修复了由于 FunASR 接口升级引入的一个导致严重剪辑错误的 bug；\n  - 支持为每个段落配置不同的开始和结束时间偏移量；\n  - 代码更新等；\n- 2024\u002F03\u002F06 修复了在命令行中使用 FunClip 的 bug。\n- 2024\u002F02\u002F28 [FunASR](https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunASR) 更新至 1.0 版本，使用 FunASR1.0 和 SeACo-Paraformer 进行支持热词定制的 ASR。\n- 2023\u002F10\u002F17 修复了选择多个时间段时，返回视频长度错误的 bug。\n- 2023\u002F10\u002F10 FunClip 现在支持使用说话人日志（Speaker Diarization）能力进行识别，在“识别说话人”中选择“是”，即可获得带有每句话说话人 ID 的识别结果。然后，你可以使用 FunClip 剪辑出一个或多个说话人（例如“spk0”或“spk0#spk3”）的片段。\n\n\u003Ca name=\"On Going\">\u003C\u002Fa>\n## 开发中🌵\n\n- [x] FunClip 将为英文用户支持 Whisper 模型，即将推出（使用 Whisper 进行带时间戳的 ASR 需要大量 GPU 内存，我们通过 FunASR 中的 Paraformer 原生时间戳预测来实现此功能）。\n- [x] FunClip 将进一步探索基于大语言模型的 AI 剪辑能力，欢迎讨论提示词设置和剪辑等话题。\n- [ ] 剪辑时支持反向选择时间段。\n- [ ] 移除静音片段。\n\n\u003Ca name=\"Install\">\u003C\u002Fa>\n## 安装🔨\n\n### Python 环境安装\n\nFunClip 的基本功能仅依赖于 Python 环境。\n```shell\n# 克隆 funclip 仓库\ngit clone https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunClip.git\ncd FunClip\n# 安装 Python 依赖\npip install -r .\u002Frequirements.txt\n```\n\n### imagemagick 安装（可选）\n\n如果你想剪辑带有内嵌字幕的视频文件\n\n1. 需要安装 ffmpeg 和 imagemagick\n\n- 在 Ubuntu 上\n```shell\napt-get -y update && apt-get -y install ffmpeg imagemagick\nsed -i 's\u002Fnone\u002Fread,write\u002Fg' \u002Fetc\u002FImageMagick-6\u002Fpolicy.xml\n```\n- 在 MacOS 上\n```shell\nbrew install imagemagick\nsed -i 's\u002Fnone\u002Fread,write\u002Fg' \u002Fusr\u002Flocal\u002FCellar\u002Fimagemagick\u002F7.1.1-8_1\u002Fetc\u002FImageMagick-7\u002Fpolicy.xml \n```\n- 在 Windows 上\n\n下载并安装 imagemagick https:\u002F\u002Fimagemagick.org\u002Fscript\u002Fdownload.php#windows\n\n找到你的 Python 安装路径，在文件 `site-packages\\moviepy\\config_defaults.py` 中将 `IMAGEMAGICK_BINARY` 修改为你的 imagemagick 安装路径。\n\n2. 下载字体文件到 funclip\u002Ffont 目录\n\n```shell\nwget https:\u002F\u002Fisv-data.oss-cn-hangzhou.aliyuncs.com\u002Fics\u002FMaaS\u002FClipVideo\u002FSTHeitiMedium.ttc -O font\u002FSTHeitiMedium.ttc\n```\n\u003Ca name=\"Usage\">\u003C\u002Fa>\n## 使用 FunClip\n\n### A. 将 FunClip 作为本地 Gradio 服务使用\n你可以按照以下方式建立自己的 FunClip 服务，其功能与 [Modelscope Space](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Fiic\u002Ffunasr_app_clipvideo\u002Fsummary) 相同：\n```shell\npython funclip\u002Flaunch.py\n# '-l en' 用于识别英文音频\n\n# FunClip：基于大语言模型（LLM）的视频剪辑工具\n\nFunClip 是一款由阿里巴巴通义实验室开源的简易视频剪辑工具，它结合了阿里巴巴开源的语音识别（ASR）模型 [FunASR](https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunASR) 和大语言模型（LLM）的能力，旨在为用户提供一种全新的视频剪辑体验：用户只需通过自然语言描述，即可快速定位并裁剪视频中的特定片段。\n\n## 主要特性🎨\n- **🔍 高精度 ASR**：基于 FunASR 的高效语音识别模型，确保时间戳的精准性。\n- **💬 大语言模型（LLM）驱动**：支持用户通过自然语言指令快速定位视频片段。\n- **👏 用户友好**：提供 Gradio Web UI 和命令行交互界面。\n- **🛠 多功能视频剪辑**：支持基于 SRT 字幕文件的多种剪辑模式。\n- **🌐 中文优化**：针对中文语音和文本进行专门优化，同时支持其他语言。\n\n## 近期更新🔥\n- **2024.6.16** FunClip 现在支持使用最新的 [Qwen-Audio](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-Audio) 模型进行自由对话式视频片段检索。\n- **2024.5.9** FunClip 现在支持使用 [Gemini](https:\u002F\u002Fdeepmind.google\u002Ftechnologies\u002Fgemini\u002F) 进行视频片段检索。\n- **2024.4.12** FunClip 现在支持使用 [DeepSeek-VL](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-VL) 进行视频片段检索。\n- **2024.3.28** FunASR 已更新至 1.0 版本，使用更便捷，识别更精准，系统更稳定。\n- **2024.1.16** 发布 FunClip 版本 v0.1.1，支持在 HuggingFace Space 上使用。\n\n## 安装指南📖\n\n### 系统要求\n- Python >= 3.7\n\n### 安装选项\n\n#### A. 通过 pip 安装\n```shell\npip install git+https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunClip.git\n```\n安装后，你可以直接使用 `funclip` 命令：\n```shell\nfunclip --file \"path\u002Fto\u002Fyour\u002Fvideo.mp4\"\n```\n\n#### B. 通过源码安装\n```shell\ngit clone https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunClip.git\ncd FunClip\npip install -e .\u002F\n```\n\n### 环境要求\n- 如果你想使用基于 LLM 的视频片段检索功能，需要配置相应的 LLM 服务。目前支持：\n    - **本地模型**：Qwen-Audio-Chat, [DeepSeek-VL-Chat](https:\u002F\u002Fhuggingface.co\u002Fdeepseek-ai\u002FDeepSeek-VL-7B-Chat)\n    - **云端 API**：Gemini, OpenAI GPT-4, [通义千问（Qwen）](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fdashscope\u002Fdeveloper-reference\u002Fapi-details)\n\n## 使用方式🚀\n\n### A. 使用 FunClip Web UI（推荐）\n\n我们推荐你使用 FunClip 的 Web 界面，它将引导你完成整个视频剪辑流程。\n\n启动 FunClip Web UI：\n```shell\nfunclip --file \"path\u002Fto\u002Fyour\u002Fvideo.mp4\"\n```\n或者，如果你想自定义服务端口或允许公网访问，可以使用：\n```shell\nfunclip --file \"path\u002Fto\u002Fyour\u002Fvideo.mp4\" --port 8080 --share True\n```\n# '-p xxx' 用于设置端口号\n# '-s True' 用于建立允许公网访问的服务\n```\n然后访问 ```localhost:7860```，你将看到一个如下所示的 Gradio 服务界面，你可以按照以下步骤使用 FunClip：\n\n- 步骤1：上传你的视频文件（或尝试下面的示例视频）\n- 步骤2：将你需要的文本片段复制到 'Text to Clip'\n- 步骤3：调整字幕设置（如果需要）\n- 步骤4：点击 'Clip' 或 'Clip and Generate Subtitles'\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_4dff20f63a10.jpg\"\u002F>\n\n按照以下指南探索基于 LLM 的视频剪辑：\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_bdf4187753c1.png\" width=360\u002F>\n\n### B. 在 Modelscope 上体验 FunClip\n\n[FunClip@Modelscope Space⭐](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Fiic\u002Ffunasr_app_clipvideo\u002Fsummary)\n\n[FunClip@HuggingFace Space🤗](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FR1ckShi\u002FFunClip)\n\n### C. 在命令行中使用 FunClip\n\nFunClip 支持你通过命令进行识别和剪辑：\n```shell\n# 步骤1：识别\npython funclip\u002Fvideoclipper.py --stage 1 \\\n                       --file examples\u002F2022云栖大会_片段.mp4 \\\n                       --output_dir .\u002Foutput\n# 现在你可以在 .\u002Foutput\u002F 目录下找到识别结果和完整的 SRT 字幕文件\n# 步骤2：剪辑\npython funclip\u002Fvideoclipper.py --stage 2 \\\n                       --file examples\u002F2022云栖大会_片段.mp4 \\\n                       --output_dir .\u002Foutput \\\n                       --dest_text '我们把它跟乡村振兴去结合起来，利用我们的设计的能力' \\\n                       --start_ost 0 \\\n                       --end_ost 100 \\\n                       --output_file '.\u002Foutput\u002Fres.mp4'\n```\n\n\u003Ca name=\"Community\">\u003C\u002Fa>\n## 社区交流🍟\n\nFunClip 由 FunASR 团队首先开源，欢迎任何有用的 Pull Request。\n\n你也可以扫描以下钉钉群或微信群二维码加入社区群进行交流。\n\n|                           钉钉群                            |                     微信群                      |\n|:----------------------------------------------------------:|:---------------------------------------------:|\n| \u003Cdiv align=\"left\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_8f3b67ad66b5.png\" width=\"250\"\u002F> | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_readme_efedf7c08cb0.png\" width=\"215\"\u002F>\u003C\u002Fdiv> |\n\n## 在 FunASR 中寻找语音模型\n\n[FunASR](https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunASR) 希望搭建起语音识别学术研究与工业应用之间的桥梁。通过支持对 ModelScope 上发布的工业级语音识别模型进行训练和微调，研究人员和开发者可以更方便地进行语音识别模型的研究和生产，促进语音识别生态的发展。让语音识别更有趣！\n\n📚FunASR 论文: \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11013\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2305.11013-orange\">\u003C\u002Fa> \n\n📚SeACo-Paraformer 论文: \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.03266\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2308.03266-orange\">\u003C\u002Fa>\n\n🌟支持 FunASR: \u003Ca href='https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunASR\u002Fstargazers'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Falibaba-damo-academy\u002FFunASR.svg?style=social'>\u003C\u002Fa>","# FunClip 快速上手指南\n\n## 环境准备\n\nFunClip 是一个开源、精准且易用的视频剪辑工具。它基于阿里巴巴达摩院开源的 FunASR Paraformer 系列模型，能够对视频进行语音识别，并允许用户根据识别出的文本片段或说话人进行自由剪辑。\n\n**系统要求**：支持 Windows、macOS 和 Linux 系统。\n\n**主要依赖**：\n- Python 环境\n- （可选）如需为输出视频嵌入字幕，需要安装 ImageMagick。\n\n## 安装步骤\n\n1.  **克隆仓库并安装 Python 依赖**\n    打开终端（命令行），执行以下命令：\n    ```shell\n    # 克隆 FunClip 仓库\n    git clone https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunClip.git\n    cd FunClip\n    # 安装 Python 依赖包\n    pip install -r .\u002Frequirements.txt\n    ```\n    *建议使用国内 PyPI 镜像源（如清华源、阿里云源）以加速下载。*\n\n2.  **（可选）安装 ImageMagick**\n    如果您需要在剪辑后的视频中**嵌入字幕**，则需要安装此工具。\n    - **Ubuntu\u002FDebian**:\n      ```shell\n      apt-get -y update && apt-get -y install ffmpeg imagemagick\n      sed -i 's\u002Fnone\u002Fread,write\u002Fg' \u002Fetc\u002FImageMagick-6\u002Fpolicy.xml\n      ```\n    - **macOS**:\n      ```shell\n      brew install imagemagick\n      sed -i 's\u002Fnone\u002Fread,write\u002Fg' \u002Fusr\u002Flocal\u002FCellar\u002Fimagemagick\u002F7.1.1-8_1\u002Fetc\u002FImageMagick-7\u002Fpolicy.xml\n      ```\n    - **Windows**:\n      从 [ImageMagick 官网](https:\u002F\u002Fimagemagick.org\u002Fscript\u002Fdownload.php#windows) 下载并安装。安装后，需要找到您的 Python 安装路径下的 `site-packages\\moviepy\\config_defaults.py` 文件，修改其中的 `IMAGEMAGICK_BINARY` 变量为您的 ImageMagick 安装路径。\n\n3.  **（可选）下载中文字体**\n    如果您需要嵌入中文字幕，请下载字体文件：\n    ```shell\n    # 在 FunClip 项目根目录下运行\n    wget https:\u002F\u002Fisv-data.oss-cn-hangzhou.aliyuncs.com\u002Fics\u002FMaaS\u002FClipVideo\u002FSTHeitiMedium.ttc -O font\u002FSTHeitiMedium.ttc\n    ```\n\n## 基本使用\n\n### 方式一：启动本地 Web 服务（推荐）\n\n这是最直观的使用方式，会启动一个带图形界面的 Gradio 服务。\n\n1.  在终端中，进入 FunClip 项目目录，运行：\n    ```shell\n    python funclip\u002Flaunch.py\n    ```\n    *可选参数*：\n    - `-l en`：指定识别英文音频。\n    - `-p xxx`：指定服务端口号（默认为 7860）。\n    - `-s True`：允许公网访问（默认仅本地可访问）。\n\n2.  启动成功后，在浏览器中访问 `http:\u002F\u002Flocalhost:7860`（如果您修改了端口，请替换为相应的端口号）。\n\n3.  按照界面指引操作：\n    - **步骤1**：上传您的视频文件。\n    - **步骤2**：工具会自动进行语音识别。您可以从识别结果中，复制想要剪辑的文本片段到“Text to Clip”区域。\n    - **步骤3**：（可选）调整字幕样式等设置。\n    - **步骤4**：点击“Clip”或“Clip and Generate Subtitles”按钮，即可完成剪辑。\n\n### 方式二：使用命令行剪辑\n\n如果您倾向于使用命令，FunClip 也提供了命令行接口。\n\n1.  **第一步：进行语音识别**\n    ```shell\n    python funclip\u002Fvideoclipper.py --stage 1 \\\n                                   --file \u002Fpath\u002Fto\u002Fyour\u002Fvideo.mp4 \\\n                                   --output_dir .\u002Foutput\n    ```\n    执行后，识别结果和完整的 SRT 字幕文件将保存在 `.\u002Foutput` 目录中。\n\n2.  **第二步：根据文本剪辑视频**\n    ```shell\n    python funclip\u002Fvideoclipper.py --stage 2 \\\n                                   --file \u002Fpath\u002Fto\u002Fyour\u002Fvideo.mp4 \\\n                                   --output_dir .\u002Foutput \\\n                                   --dest_text '你想要剪辑出的视频片段对应的原文' \\\n                                   --start_ost 0 \\ # 起始偏移（毫秒）\n                                   --end_ost 100 \\ # 结束偏移（毫秒）\n                                   --output_file '.\u002Foutput\u002Fclipped_video.mp4'\n    ```\n\n### 方式三：在线体验\n\n您也可以直接在线体验 FunClip，无需安装：\n- **ModelScope 魔搭社区**：[FunClip在线体验](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Fiic\u002Ffunasr_app_clipvideo\u002Fsummary)\n- **HuggingFace Spaces**：[FunClip在线体验](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FR1ckShi\u002FFunClip)","一位在线教育机构的视频编辑师需要从一场2小时的直播讲座录像中，快速提取出导师讲解“机器学习模型评估”这一核心知识点的所有片段，用于制作短视频合集。\n\n### 没有 FunClip 时\n- **手动对齐耗时费力**：需要反复播放视频，靠听力和肉眼在时间轴上粗略定位目标语句的开始和结束点，过程枯燥且极易出错。\n- **识别与剪辑割裂**：需要先用其他语音转文字工具生成字幕文件，再人工对照字幕文本在剪辑软件中寻找对应时间码，操作流程繁琐不连贯。\n- **无法精准聚焦内容**：当导师多次提及或在不同上下文中讲解“模型评估”时，需要人工判断哪些片段是真正需要的核心讲解，筛选工作依赖个人理解，效率低下且可能遗漏。\n- **处理多发言人视频困难**：如果讲座中有问答环节，需要从多人对话中单独提取导师的发言，只能依靠反复听取和手动分割，非常麻烦。\n\n### 使用 FunClip 后\n- **一键获得精准时间戳**：上传视频后，FunClip 通过 Paraformer-Large 模型自动生成高精度的语音识别文本和对应时间戳，文本与视频画面精准对齐，直接点击文本即可定位。\n- **智能识别与剪辑无缝集成**：在同一个界面中，只需在识别出的文字稿中选中“交叉验证”、“ROC曲线”等相关语句，或直接使用**LLM智能剪辑**功能输入“提取所有关于模型评估指标的讲解”，即可一键导出对应视频片段，实现识别到剪辑的闭环。\n- **LLM理解语义实现智能筛选**：利用集成的LLM（如Qwen、GPT）能力，通过自然语言指令（如“找出导师定义过拟合和欠拟合的部分”），模型能理解上下文语义，自动找出并标记所有相关片段，无需人工逐句判断。\n- **按发言人快速分离**：启用说话人识别功能后，系统自动区分导师和学生，编辑师可直接选择“导师”ID，一键提取所有属于导师的讲话片段，极大简化了从多人对话中抽取特定人声的工作。\n\nFunClip 通过将工业级语音识别、LLM语义理解与剪辑操作深度整合，将原本需要数小时的专业视频内容提取工作，转化为几分钟内可完成的精准、高效的自动化流程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_FunClip_55e7a530.jpg","modelscope","ModelScope","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmodelscope_66a27ef8.png","Model-as-a-Service in the making: bring accessible AI to all.",null,"contact@modelscope.cn","https:\u002F\u002Fwww.modelscope.cn\u002F","https:\u002F\u002Fgithub.com\u002Fmodelscope",[84,88],{"name":85,"color":86,"percentage":87},"Python","#3572A5",98.9,{"name":89,"color":90,"percentage":91},"Shell","#89e051",1.1,5493,671,"2026-04-05T08:19:49","MIT","Linux, macOS, Windows","未说明",{"notes":99,"python":97,"dependencies":100},"1. 基本功能仅依赖Python环境。2. 如需为视频嵌入字幕，需额外安装ffmpeg和imagemagick，不同操作系统安装方式不同。3. 使用Whisper模型进行英文时间戳预测需要大量GPU内存。4. 首次运行需下载语音识别和说话人识别模型。",[],[55,13,26,52,53],[103,104,105,106,107,108,109,110],"speech-recognition","video-clip","video-subtitles","subtitles-generator","speech-to-text","gradio","gradio-python-llm","llm",9,"2026-03-27T02:49:30.150509","2026-04-06T06:54:54.105564",[115,120,125,130,135,140],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},3993,"在 PyCharm 中运行 launch.py 报错 FileNotFoundError: [WinError 2] 系统找不到指定的文件，如何解决？","此错误通常是由于 moviepy 库找不到 ImageMagick 可执行文件路径引起的。解决方案是修改 `Lib\\site-packages\\moviepy\\config_defaults.py` 文件中的 `IMAGEMAGICK_BINARY` 路径，将其设置为 ImageMagick 的 exe 文件的实际安装路径。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FFunClip\u002Fissues\u002F41",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},3994,"ASR（语音识别）处理速度非常慢，长时间处于队列中，是什么原因？","本地部署时，如果 ASR 处理极慢或无响应，可能是因为程序在尝试加载示例文件时卡住了网络进程。解决方案是删除这些示例文件后再重新部署。此外，维护者也在寻找 Windows 下 ImageMagick 的替代方案以优化性能。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FFunClip\u002Fissues\u002F97",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},3995,"运行程序时出现 FileNotFoundError: [WinError 3] 系统找不到指定的路径错误，如何修复？","此错误可能是由于输出目录路径为空导致的。请确保在使用裁剪+字幕功能时，文件输出路径（File Output Dir）不为空。此外，该问题也可能是旧版本的一个 bug，已在新版本中修复，请更新到最新版本。同时，该功能依赖 ImageMagick，请确保 moviepy 能正确找到其安装位置。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FFunClip\u002Fissues\u002F61",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},3996,"启动时遇到 NameError: name 'ClusterBackend' is not defined 错误，如何解决？","此错误通常是由于 scikit-learn 版本过低导致的。请确保 scikit-learn 版本 >= 1.3.0。可以通过运行命令 `pip install -U scikit-learn` 来升级。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FFunClip\u002Fissues\u002F31",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},3997,"运行 launch.py 时遇到 FileNotFoundError: [Errno 2] No such file or directory: 'funclip\u002Futils\u002Ftheme.json' 错误，怎么办？","此错误通常是因为没有在正确的项目根目录下运行程序。请确保在 FunClip 项目的根目录下运行命令 `python funclip\u002Flaunch.py`。在运行前，可以在命令行使用 `ls` 或 `dir` 命令确认当前目录下是否存在 `funclip` 文件夹。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FFunClip\u002Fissues\u002F44",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},3998,"使用 # 连接多个文本片段进行裁剪时，有的片段无法识别，提示“No period found in the audio”，如何排查？","首先，建议不使用 # 连接，而是将每条文本单独进行裁剪测试，以确定是合并问题还是单条文本问题。如果单条文本复制后仍找不到，可能是文本格式或编码问题。可以尝试从原始大段文本中复制不同部分进行测试。如果每条单独裁剪都成功但合并失败，则可能是软件 bug，可向维护者反馈。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FFunClip\u002Fissues\u002F60",[]]