Qmedia

616 74 中等 7 次阅读 4天前MIT视频其他开发框架

AI 解读由 AI 自动生成，仅供参考

Qmedia 是一款专为内容创作者设计的开源 AI 内容搜索引擎。它能够高效提取并分析文本、图片及短视频中的信息，将分散的多媒体资源整合成结构化的知识卡片。面对海量素材难以检索、非结构化数据利用率低的问题，Qmedia 通过多模态 RAG（检索增强生成）技术，实现了基于内容的智能问答与定制化搜索结果，让创作灵感触手可及。

特别值得一提的是，Qmedia 支持全本地化部署，包括 Web 应用、RAG 服务器及大语言模型服务，这意味着用户可以在离线环境下安全地处理私有数据，无需担心隐私泄露。其灵活的微服务架构允许根据资源情况独立部署各模块，甚至可嵌入其他系统。

Qmedia 非常适合内容创作者、AI 开发者以及关注多模态技术的科研人员使用。无论是寻找素材、整理知识库，还是搭建私有的多媒体检索系统，Qmedia 都能提供强大的技术支持。其基于 Next.js 构建的现代化界面也提供了流畅的用户体验，是探索 AI 内容创作领域的优秀开源项目。

使用场景

一位独立纪录片博主正在筹备关于“城市变迁”的短视频系列，手头积累了大量本地历史照片、新闻截图和访谈视频素材。他急需整理这些线索以支撑脚本创作。

没有 Qmedia 时

海量素材分散在文件夹中，无法直接搜索视频画面或图片里的文字内容。
需要人工逐个打开文件确认信息，查找特定年代的建筑细节耗时极长。
若使用云端 AI 分析，担心未公开的创作素材泄露给第三方服务器。
难以将零散的图文和视频片段整合成结构化的参考卡片，导致创作效率低下。

使用 Qmedia 后

通过多模态 RAG 技术，直接提问即可定位到相关视频帧或图片中的关键信息。
支持全本地部署，所有素材处理均在私有环境完成，彻底保障数据隐私安全。
自动生成内容卡片，快速提取并展示跨媒体的关联信息，大幅减少重复浏览时间。
基于用户兴趣定制搜索结果，迅速筛选出符合选题方向的视觉与文本证据。

Qmedia 让创作者能在保护隐私的前提下，高效挖掘本地多媒体素材库的价值。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes项目使用 Conda 管理环境（需创建 qllm 和 qmedia 两个环境），包含三个独立服务模块（mm_server、mmrag_server、qmedia_web）。前端基于 Next.js/TypeScript，后端集成 LlamaIndex 与多模态模型。支持本地离线部署，首次运行需配置 assets 目录存放媒体文件，部分模型（如 Faster Whisper）支持 CPU 运行。

python未说明

LlamaIndex

Ollama

CLIP

BGE

Faster Whisper

Next.js

TypeScript

TailwindCSS

shadcn/ui

Uvicorn

快速开始

QMedia

专为内容创作者设计的 AI 内容搜索引擎。

英文 | 简体中文

更新日志 - 报告问题 - 请求功能

主要功能

搜索图片/文本和短视频素材。
高效分析图片/文本和短视频内容，整合分散信息。
提供内容来源并分解图片/文本和短视频信息，通过内容卡片展示信息。
根据用户兴趣和需求，从图片/文本和短视频内容中生成定制化搜索结果。
本地部署，支持私有数据的离线内容搜索和问答。

👋🏻 简介
💫 功能概览
🤖 安装说明
⭐️ 使用

👋🏻 简介

QMedia 是一个开源的多媒体 AI 内容搜索引擎，为文本/图片和短视频内容提供了丰富的信息提取方法。它整合非结构化文本/图片和短视频信息，构建多模态 RAG（检索增强生成）内容问答系统。旨在以开源方式分享和交流 AI 内容创作的理念。问题

与您的朋友分享 QMedia。

激发内容创作的新灵感

	加入我们的 Discord 社区！
	加入我们的微信群！

💫 功能概览

内容卡片
- 以卡片形式展示图片/文本和视频内容
- Web 服务 灵感源自小红书网页版，使用 TypeScript、Next.js、TailwindCSS 和 Shadcn/UI 技术栈实现
- RAG 搜索/问答服务 和 图片/文本/视频模型服务 使用 Python 框架和 LlamaIndex 应用实现
- Web 服务、RAG 搜索/问答服务 和 图片/文本/视频模型服务 可单独部署，以便根据用户资源灵活部署，并可嵌入其他系统进行图片/文本和视频内容提取。
多模态内容 RAG
- 搜索图片/文本和短视频素材。
- 基于用户查询从图片/文本和短视频内容中提取有用信息，生成高质量答案。
- 通过内容卡片展示内容来源及图片/文本和短视频信息的分解。
- 检索和问答依赖于图片/文本和短视频内容的分解，包括图像风格、文本布局、短视频转录、视频摘要等。
- 支持 Google 内容搜索。
纯本地多模态模型

在本地部署各种类型的模型与 RAG 应用层分离，便于替换不同的模型本地模型生命周期管理，可配置手动或自动释放以降低服务器负载

语言模型：
- 支持本地 Ollama 模型切换。
  - llama3:8b-instruct LLM（大型语言模型）模型的轻量级本地部署。
  - llama3:70b-instruct 开源 LLM 模型中的第八名。
特征嵌入模型：
- 图像嵌入：CLIP Encoder 将图像转换为文本特征编码。
- 文本嵌入：BGE Encoder 多语言嵌入模型，将文本转换为特征编码，本地模型与 GPT Encoder 对齐。
图像模型：
- 图像文本 OCR（光学字符识别）识别：Qanything 本地知识库问答系统 OCR
- 视觉理解模型：
  - llava-llama3: Ollama 本地部署的 GPT-4V 级别视觉理解模型。
视频模型
- 视频转录：
  - Faster Whisper: 快速提取视频转录内容，可在本地 CPU 上运行。
- 基于 LLM 的短视频内容摘要
- 短视频亮点识别
- 短视频风格类型识别
- 短视频内容分析与分解

未来计划

图片/文本短视频内容分析及爆款内容分解
搜索相似图片/文本/视频
卡片图片/文本内容生成
短视频内容编辑

🤖 安装

文件结构介绍

QMedia 服务： 根据资源可用性，可以本地部署，也可以将模型服务部署在云端

mm_server 安装

Multimodal Model Service（多模态模型服务）mm_server:
- 多模态模型部署和 API（应用程序编程接口）调用
- Ollama LLM（大型语言模型）模型
- 图像模型
- 视频模型
- 特征嵌入模型

mmrag_server 安装

内容搜索与问答服务 mmrag_server:
- 内容卡片展示与查询
- 图像/文本/短视频内容提取、嵌入和存储服务
- 多模态数据 RAG（检索增强生成）检索服务
- 内容问答服务

qmedia_web 安装

Web 服务 qmedia_web: 语言：TypeScript 框架：Next.js 样式：Tailwind CSS 组件：shadcn/ui

⭐️ 使用

组合使用

mm_server + qmedia_web + mmrag_server 网页内容展示、内容 RAG 搜索与问答、模型服务

服务启动流程：

# Start mm_server service
cd mm_server
source activate qllm
python main.py

# Start mmrag_server service
cd mmrag_server
source activate qmedia
python main.py

# Start qmedia_web service
cd qmedia_web
pnpm dev

通过网页使用功能在启动阶段，mmrag_server 将从 assets/medias 和 assets/mm_pseudo_data.json 读取伪数据，并调用 mm_server 从文本/图像和短视频中提取并结构化信息为 node（节点）信息，然后存储在 db（数据库）中。检索和问答将基于 db（数据库）中的数据。

自定义数据

# assets file structure
assets
├── mm_pseudo_data.json # Content card data
└── medias # Image/Video files

替换 assets 中的内容并删除历史存储的 db 文件。 assets/medias 包含图像/视频文件，可替换为您自己的图像/视频文件。 assets/mm_pseudo_data.json 包含内容卡片数据，可替换为您自己的内容卡片数据。运行服务后，模型将自动提取信息并存储在 db（数据库）中。

独立模型服务

可以独立使用 mm_server 本地图像/文本/视频信息提取服务。它可以作为独立的图像编码、文本编码、视频转录提取和图像 OCR（光学字符识别）服务，在任何场景下均可通过 API 访问。

# Start mm_server service independently
cd mm_server
python main.py

# uvicorn main:app --reload --host localhost --port 50110

API 内容：

http://localhost:50110/docs

alt text

纯 Python RAG 服务/模型服务

可以通过 API 在纯 Python 环境中结合使用 mm_server + qmedia_web 进行内容提取和 RAG 检索。

# Start mmrag_server service independently
cd mmrag_server
python main.py

# uvicorn main:app --reload --host localhost --port 50110

API 内容：

alt text

Star 历史记录

许可证

QMedia 采用 MIT License 授权

致谢

感谢 QAnything 提供强大的 OCR 模型。

感谢 llava-llama3 提供强大的 LLM 视觉模型。

感谢 Ghibli Image Generator 提供 API 支持。

QMedia 快速上手指南

QMedia 是一款专为内容创作者设计的开源多媒体 AI 搜索引擎。它支持图文和短视频内容的搜索、分析，并集成了多模态 RAG（检索增强生成）问答系统。核心优势在于支持全本地化部署，保护数据隐私的同时实现离线内容检索与问答。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux / macOS / Windows
Python：建议版本 3.x，需配置 Conda 或虚拟环境
Node.js：用于 Web 服务前端构建
包管理器：pnpm (用于 Web 服务)
模型服务：可选配置 Ollama 以运行本地大语言模型 (LLM) 及视觉模型

安装步骤

本项目由三个主要服务模块组成，可根据资源情况独立或组合部署。

1. 克隆项目

git clone <repository-url>
cd Qmedia

2. 配置服务环境

根据项目结构，依次进入各模块目录并激活对应的 Python 环境（具体依赖安装请参考各子目录下的 README）。

mm_server (多模态模型服务)
mmrag_server (RAG 搜索与问答服务)
qmedia_web (Web 前端服务)

3. 启动服务

按照以下顺序启动各个服务组件。

启动 mm_server

cd mm_server
source activate qllm
python main.py

启动 mmrag_server

cd mmrag_server
source activate qmedia
python main.py

启动 qmedia_web

cd qmedia_web
pnpm dev

基本使用

组合使用模式

同时运行上述三个服务后，即可通过浏览器访问 Web 界面进行内容搜索与问答。

默认数据加载：服务启动时，mmrag_server 会自动读取 assets/medias 中的媒体文件及 assets/mm_pseudo_data.json 中的数据。
信息提取：系统将调用 mm_server 对图文和视频信息进行结构化提取，存入数据库 (db)。
交互查询：在 Web 页面输入关键词，系统将基于提取的信息返回搜索结果及卡片式展示。

自定义数据

若需使用自有素材，请按以下结构调整 assets 目录：

assets
├── mm_pseudo_data.json # 替换为自定义内容卡片数据
└── medias              # 替换为您的图片/视频文件

注意：替换素材后，请删除历史存储的 db 文件，以便服务重新索引新数据。

独立服务调用

如需仅作为 API 服务集成到其他系统中，可单独启动 mm_server 或 mmrag_server。

API 文档地址：启动成功后访问 http://localhost:50110/docs 查看接口详情。
纯 Python RAG 模式：结合 mm_server + qmedia_web 可通过 API 完成内容提取与检索。

常见问题

项目内容不完整怎么办？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 Qmedia 时

使用 Qmedia 后

运行环境要求

快速开始

QMedia

专为内容创作者设计的 AI 内容搜索引擎。

主要功能

👋🏻 简介

💫 功能概览

内容卡片

多模态内容 RAG

纯本地多模态模型

未来计划

🤖 安装

文件结构介绍

mm_server 安装

mmrag_server 安装

qmedia_web 安装

⭐️ 使用

组合使用

自定义数据

独立模型服务

纯 Python RAG 服务/模型服务

Star 历史记录

许可证

致谢

QMedia 快速上手指南

环境准备

安装步骤

1. 克隆项目

2. 配置服务环境

3. 启动服务

启动 mm_server

启动 mmrag_server

启动 qmedia_web

基本使用

组合使用模式

自定义数据

独立服务调用

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow