[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-QmiAI--Qmedia":3,"tool-QmiAI--Qmedia":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":80,"owner_website":79,"owner_url":81,"languages":82,"stars":105,"forks":106,"last_commit_at":107,"license":108,"difficulty_score":10,"env_os":109,"env_gpu":109,"env_ram":109,"env_deps":110,"category_tags":122,"github_topics":123,"view_count":130,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":131,"updated_at":132,"faqs":133,"releases":139},587,"QmiAI\u002FQmedia","Qmedia","An open-source AI content search engine designed specifically for content creators. Supports extraction of text, images, and short videos. Allows full local deployment (web app, RAG server, LLM server). Supports multi-modal RAG content Q&A. ","Qmedia 是一款专为内容创作者设计的开源 AI 内容搜索引擎。它能够高效提取并分析文本、图片及短视频中的信息，将分散的多媒体资源整合成结构化的知识卡片。面对海量素材难以检索、非结构化数据利用率低的问题，Qmedia 通过多模态 RAG（检索增强生成）技术，实现了基于内容的智能问答与定制化搜索结果，让创作灵感触手可及。\n\n特别值得一提的是，Qmedia 支持全本地化部署，包括 Web 应用、RAG 服务器及大语言模型服务，这意味着用户可以在离线环境下安全地处理私有数据，无需担心隐私泄露。其灵活的微服务架构允许根据资源情况独立部署各模块，甚至可嵌入其他系统。\n\nQmedia 非常适合内容创作者、AI 开发者以及关注多模态技术的科研人员使用。无论是寻找素材、整理知识库，还是搭建私有的多媒体检索系统，Qmedia 都能提供强大的技术支持。其基于 Next.js 构建的现代化界面也提供了流畅的用户体验，是探索 AI 内容创作领域的优秀开源项目。","\u003Cdiv align=\"center\">\u003Ca name=\"readme-top\">\u003C\u002Fa>\n\n\u003Ca href=\"https:\u002F\u002Fx.com\u002FLafe8088\" target=\"_blank\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_1670d52beadd.png\" alt=\"alt text\">\n\u003C\u002Fa>\n\n\u003Ch1>QMedia\u003C\u002Fh1>\n\u003Ch3>\nAI content search engine designed specifically for content creators. \u003Cbr \u002F> \n\u003C\u002Fh3>\n\n\u003Cdiv style=\"text-align: center;\">\n\n**English** | [简体中文](.\u002FREADME.zh-CN.md)\n\n[Changelog](.\u002FCHANGELOG.md) - [Report Issues][g-issues-link] - [Request Feature][g-issues-link]\n\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl\u002Fhttps\u002Ftwitter.com\u002Fcloudposse.svg?style=social&label=Follow%20%40Lafe)][lafe-twitter] \u003Ca href=\"https:\u002F\u002Fx.com\u002FLinkLin1987\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FFollow-%40LinkLin-1DA1F2?logo=twitter&style={style}\">\u003C\u002Fa> [![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg)](.\u002FLICENSE) \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FbkU2K7GjAb\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1245752894389489704?style=social&logo=discord\">\u003C\u002Fa>\n\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"left\">\n\n### **Key Features**\n\n- Search for image\u002Ftext and short video materials.\n- Efficiently analyze image\u002Ftext and short video content, integrating scattered information.\n- Provide content sources and decompose image\u002Ftext and short video information, presenting information through content cards.\n- Generate customized search results based on user interests and needs from image\u002Ftext and short video content.\n- Local deployment, enabling offline content search and Q&A for private data.\n\n\u003Cdetails open=\"open\">\n\u003Csummary>Directory\u003C\u002Fsummary>\n\n- [👋🏻 Introduction](#-introduction)\n- [💫 feature overview](#-feature-overview)\n  - [`1` content cards](#content-cards)\n  - [`2` multimodal content rag](#multimodal-content-rag)\n  - [`3` pure local multimodalmodels](#pure-local-multimodal-models)\n- [🤖 installation instructions](#-installation)\n  - [mm_server Installation](#mm_server-installation)\n  - [mmrag_server Installation](#mmrag_server-installation)\n  - [qmedia_web Installation](#qmedia_web-installation)\n- [⭐️ Usage](#️-usage)\n  - [Combined Usage](#combined-usage)\n  - [Independent model service](#independent-model-service)\n  - [pure local multimodal](#pure-local-multimodal-models)\n  \u003C\u002Fdetails>\n\n\u003C!-- ============================================ -->\n\n### 👋🏻 Introduction\n\n**QMedia** is an open-source multimedia AI content search engine , provides rich information extraction methods for text\u002Fimage and short video content. It integrates unstructured text\u002Fimage and short video information to build a multimodal RAG content Q&A system. The aim is to share and exchange ideas on AI content creation in an open-source manner. [issues][g-issues-link]\n\n**Share QMedia with your friends.**\n\n[![][share-x-shield]][share-x-link]\n\n**Spark new ideas for content creation**\n| \u003Cdiv align=\"center\"> \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FbkU2K7GjAb\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1245752894389489704?style=social&logo=discord\">\u003C\u002Fa> \u003C\u002Fdiv>| Join our Discord community！ |\n| :---------------------------------------- | :------------------------ |\n| ![alt text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_1b4bad251448.png) | **Join our WeChat group !** |\n\n\u003Cbr\u002F>\n\n\u003Cdiv align=\"right\">\n\n[![][back-to-top]](#readme-top)\n\n\u003C\u002Fdiv>\n\n\u003C!-- ============================================ -->\n\n### 💫 Feature Overview\n\n- #### Content Cards\n\n  - Display image\u002Ftext and video content in the form of cards\n  - `Web Service` inspired by XHS web version, implemented using the technology stack of Typescript, Next.js, TailwindCSS, and Shadcn\u002FUI\n  - `RAG Search\u002FQ&A Service` and `Image\u002FText\u002FVideo Model Service` implemented using the Python framework and LlamaIndex applications\n  - Web Service, `RAG Search\u002FQ&A Service`, and `Image\u002FText\u002FVideo Model Service` can be deployed separately for flexible deployment based on user resources, and can be embedded into other systems for image\u002Ftext and video content extraction.\n\n  \u003Ca href=\"https:\u002F\u002Fx.com\u002FLafe8088\" target=\"_blank\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_0cbc398362c1.png\" alt=\"alt text\">\n  \u003C\u002Fa>\n\n  \u003Cbr\u002F>\n\n- #### Multimodal Content RAG\n\n  - Search for image\u002Ftext and short video materials.\n  - Extract useful information from image\u002Ftext and short video content based on user queries to generate high-quality answers.\n  - Present content sources and the breakdown of image\u002Ftext and short video information through content cards.\n  - Retrieval and Q&A rely on the breakdown of image\u002Ftext and short video content, including image style, text layout, short video transcription, video summaries, etc.\n  - Support Google content search.\n\n  \u003Ca href=\"https:\u002F\u002Fx.com\u002FLafe8088\" target=\"_blank\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_762baaae1b32.png\" alt=\"alt text\">\n  \u003C\u002Fa>\n\n- #### **Pure Local Multimodal Models**\n\n  Deployment of various types of models locally\n  Separation from the RAG application layer, making it easy to replace different models\n  Local model lifecycle management, configurable for manual or automatic release to reduce server load\n\n  **Language Models**:\n\n  - Support local Ollama model switching.\n    - [llama3:8b-instruct](https:\u002F\u002Follama.com\u002Flibrary\u002Fllama3:8b-instruct-q4_0) Lightweight local deployment of LLM models.\n    - [llama3:70b-instruct](https:\u002F\u002Follama.com\u002Flibrary\u002Fllama3:70b-instruct) Eighth place in open-source LLM models.\n\n  **Feature Embedding Models**:\n\n  - Image Embedding: [CLIP Encoder](https:\u002F\u002Fgithub.com\u002Fopenai\u002FCLIP) Convert images to text feature encoding.\n  - Text Embedding: [BGE Encoder](https:\u002F\u002Fgithub.com\u002FFlagOpen\u002FFlagEmbedding) Multilingual embedded model, converting text to feature encoding, with local models aligned to GPT Encoder.\n\n  **Image Models**:\n\n  - Image Text OCR Recognition: [Qanything](https:\u002F\u002Fgithub.com\u002Fnetease-youdao\u002FQAnything\u002Ftree\u002Fv1.4.0-python) Local Knowledge Base Q&A System OCR\n  \u003C!-- - Image Layout and Character Recognition: [HQ-SAM](https:\u002F\u002Fgithub.com\u002FFlagOpen\u002FHQ-SAM) High-Quality Segmentation of Everything -->\n  - Visual Understanding Models:\n\n    - [ ] [llava-llama3](https:\u002F\u002Follama.com\u002Flibrary\u002Fllava-llama3): Ollama's locally deployed GPT-4V level visual understanding model.\n\n  **Video Models**\n\n  - Video Transcription:\n    - [Faster Whisper](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper): Quickly extract video transcription content, can run on local CPU.\n  - LLM-based Short Video Content Summarization\n  - [ ] Identification of highlights in short videos\n  - [ ] Recognition of short video style types\n  - [ ] Analysis and breakdown of short video content\n\n  \u003C!-- ![alt text](\u002Fdocs\u002Fimages\u002Fimage-14.png) -->\n\n\u003Cdiv align=\"right\">\n\n[![][back-to-top]](#readme-top)\n\n\u003C\u002Fdiv>\n\n\u003C!-- ============================================ -->\n\n#### Future Plans\n\n- [ ] **Image\u002FText Short Video Content Analysis and Viral Content Breakdown**\n- [ ] **Search for Similar Image\u002FText\u002FVideo**\n- [ ] **Card Image\u002FText Content Generation**\n- [ ] **Short Video Content Editing**\n\n\u003Cdiv align=\"right\">\n\n[![][back-to-top]](#readme-top)\n\n\u003C\u002Fdiv>\n\n---\n\n\u003C!-- ============================================ -->\n\n### 🤖 Installation\n\n#### File Structure Introduction\n\n**QMedia services:**\nDepending on resource availability, they can be deployed locally or the model services can be deployed in the cloud\n\n#### **[mm_server Installation](.\u002Fmm_server\u002FREADME.md)**\n\n- Multimodal Model Service `mm_server`:\n\n  - Multimodal model deployment and API calls\n  - Ollama LLM models\n  - Image models\n  - Video models\n  - Feature embedding models\n\n    \u003Cbr\u002F>\n\n#### **[mmrag_server Installation](.\u002Fmmrag_server\u002FREADME.md)**\n\n- Content Search and Q&A Service `mmrag_server`:\n\n  - Content Card Display and Query\n  - Image\u002FText\u002FShort Video Content Extraction, Embedding, and Storage Service\n  - Multimodal Data RAG Retrieval Service\n  - Content Q&A Service\n\n    \u003Cbr\u002F>\n\n#### **[qmedia_web Installation](.\u002Fqmedia_web\u002FREADME.md)**\n\n- Web Service `qmedia_web`:\n  Language: TypeScript\n  Framework: Next.js\n  Styling: Tailwind CSS\n  Components: shadcn\u002Fui\n\n\u003Cdiv align=\"right\">\n\n[![][back-to-top]](#readme-top)\n\n\u003C\u002Fdiv>\n\n---\n\n### ⭐️ Usage\n\n#### **Combined Usage**\n\n`mm_server` + `qmedia_web` + `mmrag_server`\nWeb Page Content Display, Content RAG Search and Q&A, Model Service\n\n1. Service Startup Process:\n\n```bash\n# Start mm_server service\ncd mm_server\nsource activate qllm\npython main.py\n\n# Start mmrag_server service\ncd mmrag_server\nsource activate qmedia\npython main.py\n\n# Start qmedia_web service\ncd qmedia_web\npnpm dev\n```\n\n2. Using Functions via the Web Page\n   During the startup phase, `mmrag_server` will read pseudo data from `assets\u002Fmedias` and `assets\u002Fmm_pseudo_data.json`, and call `mm_server` to extract and structure the information from text\u002Fimage and short videos into `node` information, which is then stored in the `db`. The retrieval and Q&A will be based on the data in the `db`.\n\n#### Custom Data\n\n```bash\n# assets file structure\nassets\n├── mm_pseudo_data.json # Content card data\n└── medias # Image\u002FVideo files\n```\n\nReplace the contents in `assets` and delete the historically stored `db` file.\n`assets\u002Fmedias` contains image\u002Fvideo files, which can be replaced with your own image\u002Fvideo files.\n`assets\u002Fmm_pseudo_data.json` contains content card data, which can be replaced with your own content card data. After running the service, the model will automatically extract the information and store it in the `db`.\n\n\u003Cdiv align=\"right\">\n\n[![][back-to-top]](#readme-top)\n\n\u003C\u002Fdiv>\n\n---\n\n#### **Independent Model Service**\n\nCan use the `mm_server` local image\u002Ftext\u002Fvideo information extraction service independently.\nIt can be used as a standalone image encoding, text encoding, video transcription extraction, and image OCR service, accessible via API in any scenario.\n\n```bash\n# Start mm_server service independently\ncd mm_server\npython main.py\n\n# uvicorn main:app --reload --host localhost --port 50110\n```\n\nAPI Content:\n\n- http:\u002F\u002Flocalhost:50110\u002Fdocs\n\n![alt text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_10522a98d4d2.png)\n\n\u003Cbr\u002F>\n\n#### **Pure Python RAG Service\u002FModel Service**\n\nCan use `mm_server` + `qmedia_web` together to perform content extraction and RAG retrieval in a pure Python environment via APIs.\n\n```bash\n# Start mmrag_server service independently\ncd mmrag_server\npython main.py\n\n# uvicorn main:app --reload --host localhost --port 50110\n```\n\nAPI Content:\n\n- http:\u002F\u002Flocalhost:50110\u002Fdocs\n- http:\u002F\u002Flocalhost:8001\u002Fdocs\n\n![alt text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_06a5ffd69b6d.png)\n\n\u003Cdiv align=\"right\">\n\n[![][back-to-top]](#readme-top)\n\n\u003C\u002Fdiv>\n\n---\n\n### Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_f11d94fdbedf.png)](https:\u002F\u002Fstar-history.com\u002F#QmiAI\u002FQmedia&Date)\n\n### License\n\n`QMedia` is licensed under [MIT License](.\u002FLICENSE)\n\n### Acknowledgments\n\nThanks to [QAnything](https:\u002F\u002Fgithub.com\u002Fnetease-youdao\u002FQAnything\u002F) for strong OCR models.\n\nThanks to [llava-llama3](https:\u002F\u002Fgithub.com\u002Fnetease-youdao\u002FQAnything\u002F) for strong llm vision models.\n\nThanks to [Ghibli Image Generator](https:\u002F\u002Fghibliimagegenerator.com\u002F) for api support.\n\n \n\n[lafe-twitter]: https:\u002F\u002Fx.com\u002FLafe8088\n[g-issues-link]: https:\u002F\u002Fgithub.com\u002FQmiAI\u002FQmedia\u002Fissues\n[back-to-top]: https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-BACK_TO_TOP-151515?style=flat-square\n[share-x-shield]: https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-share%20on%20x-black?labelColor=black&logo=x&logoColor=white&style=flat-square\n[share-x-link]: https:\u002F\u002Ftwitter.com\u002Fintent\u002Ftweet?url=https:\u002F\u002Fgithub.com\u002FQmiAI\u002FQmedia&text=Qmedia%0AAn%20open-source%20AI%20content%20search%20engine%20designed%20specifically%20for%20content%20creators.%0ASupports%20extraction%20of%20text,%20images,%20and%20short%20videos.%0AAllows%20full%20local%20deployment%20(web%20app,%20RAG%20server,%20LLM%20server).%0ASupports%20multi-modal%20RAG%20content%20QA.\n","\u003Cdiv align=\"center\">\u003Ca name=\"readme-top\">\u003C\u002Fa>\n\n\u003Ca href=\"https:\u002F\u002Fx.com\u002FLafe8088\" target=\"_blank\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_1670d52beadd.png\" alt=\"alt text\">\n\u003C\u002Fa>\n\n\u003Ch1>QMedia\u003C\u002Fh1>\n\u003Ch3>\n专为内容创作者设计的 AI 内容搜索引擎。\u003Cbr \u002F> \n\u003C\u002Fh3>\n\n\u003Cdiv style=\"text-align: center;\">\n\n**英文** | [简体中文](.\u002FREADME.zh-CN.md)\n\n[更新日志](.\u002FCHANGELOG.md) - [报告问题][g-issues-link] - [请求功能][g-issues-link]\n\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl\u002Fhttps\u002Ftwitter.com\u002Fcloudposse.svg?style=social&label=Follow%20%40Lafe)][lafe-twitter] \u003Ca href=\"https:\u002F\u002Fx.com\u002FLinkLin1987\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FFollow-%40LinkLin-1DA1F2?logo=twitter&style={style}\">\u003C\u002Fa> [![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg)](.\u002FLICENSE) \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FbkU2K7GjAb\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1245752894389489704?style=social&logo=discord\">\u003C\u002Fa>\n\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"left\">\n\n### **主要功能**\n\n- 搜索图片\u002F文本和短视频素材。\n- 高效分析图片\u002F文本和短视频内容，整合分散信息。\n- 提供内容来源并分解图片\u002F文本和短视频信息，通过内容卡片展示信息。\n- 根据用户兴趣和需求，从图片\u002F文本和短视频内容中生成定制化搜索结果。\n- 本地部署，支持私有数据的离线内容搜索和问答。\n\n\u003Cdetails open=\"open\">\n\u003Csummary>目录\u003C\u002Fsummary>\n\n- [👋🏻 简介](#-简介)\n- [💫 功能概览](#-功能概览)\n  - [`1` 内容卡片](#内容卡片)\n  - [`2` 多模态内容 RAG](#多模态内容-rag)\n  - [`3` 纯本地多模态模型](#纯本地多模态模型)\n- [🤖 安装说明](#-安装)\n  - [mm_server 安装](#mm_server-installation)\n  - [mmrag_server 安装](#mmrag_server-installation)\n  - [qmedia_web 安装](#qmedia_web-installation)\n- [⭐️ 使用](#️-使用)\n  - [组合使用](#组合使用)\n  - [独立模型服务](#独立模型服务)\n  - [纯本地多模态](#纯本地多模态模型)\n  \u003C\u002Fdetails>\n\n\u003C!-- ============================================ -->\n\n### 👋🏻 简介\n\n**QMedia** 是一个开源的多媒体 AI 内容搜索引擎，为文本\u002F图片和短视频内容提供了丰富的信息提取方法。它整合非结构化文本\u002F图片和短视频信息，构建多模态 RAG（检索增强生成）内容问答系统。旨在以开源方式分享和交流 AI 内容创作的理念。[问题][g-issues-link]\n\n**与您的朋友分享 QMedia。**\n\n[![][share-x-shield]][share-x-link]\n\n**激发内容创作的新灵感**\n| \u003Cdiv align=\"center\"> \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FbkU2K7GjAb\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1245752894389489704?style=social&logo=discord\">\u003C\u002Fa> \u003C\u002Fdiv>| 加入我们的 Discord 社区！ |\n| :---------------------------------------- | :------------------------ |\n| ![alt text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_1b4bad251448.png) | **加入我们的微信群！** |\n\n\u003Cbr\u002F>\n\n\u003Cdiv align=\"right\">\n\n[![][back-to-top]](#readme-top)\n\n\u003C\u002Fdiv>\n\n\u003C!-- ============================================ -->\n\n### 💫 功能概览\n\n- #### 内容卡片\n\n  - 以卡片形式展示图片\u002F文本和视频内容\n  - `Web 服务` 灵感源自小红书网页版，使用 TypeScript、Next.js、TailwindCSS 和 Shadcn\u002FUI 技术栈实现\n  - `RAG 搜索\u002F问答服务` 和 `图片\u002F文本\u002F视频模型服务` 使用 Python 框架和 LlamaIndex 应用实现\n  - Web 服务、`RAG 搜索\u002F问答服务` 和 `图片\u002F文本\u002F视频模型服务` 可单独部署，以便根据用户资源灵活部署，并可嵌入其他系统进行图片\u002F文本和视频内容提取。\n\n  \u003Ca href=\"https:\u002F\u002Fx.com\u002FLafe8088\" target=\"_blank\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_0cbc398362c1.png\" alt=\"alt text\">\n  \u003C\u002Fa>\n\n  \u003Cbr\u002F>\n\n- #### 多模态内容 RAG\n\n  - 搜索图片\u002F文本和短视频素材。\n  - 基于用户查询从图片\u002F文本和短视频内容中提取有用信息，生成高质量答案。\n  - 通过内容卡片展示内容来源及图片\u002F文本和短视频信息的分解。\n  - 检索和问答依赖于图片\u002F文本和短视频内容的分解，包括图像风格、文本布局、短视频转录、视频摘要等。\n  - 支持 Google 内容搜索。\n\n  \u003Ca href=\"https:\u002F\u002Fx.com\u002FLafe8088\" target=\"_blank\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_762baaae1b32.png\" alt=\"alt text\">\n  \u003C\u002Fa>\n\n- #### **纯本地多模态模型**\n\n  在本地部署各种类型的模型\n  与 RAG 应用层分离，便于替换不同的模型\n  本地模型生命周期管理，可配置手动或自动释放以降低服务器负载\n\n  **语言模型**：\n\n  - 支持本地 Ollama 模型切换。\n    - [llama3:8b-instruct](https:\u002F\u002Follama.com\u002Flibrary\u002Fllama3:8b-instruct-q4_0) LLM（大型语言模型）模型的轻量级本地部署。\n    - [llama3:70b-instruct](https:\u002F\u002Follama.com\u002Flibrary\u002Fllama3:70b-instruct) 开源 LLM 模型中的第八名。\n\n  **特征嵌入模型**：\n\n  - 图像嵌入：[CLIP Encoder](https:\u002F\u002Fgithub.com\u002Fopenai\u002FCLIP) 将图像转换为文本特征编码。\n  - 文本嵌入：[BGE Encoder](https:\u002F\u002Fgithub.com\u002FFlagOpen\u002FFlagEmbedding) 多语言嵌入模型，将文本转换为特征编码，本地模型与 GPT Encoder 对齐。\n\n  **图像模型**：\n\n  - 图像文本 OCR（光学字符识别）识别：[Qanything](https:\u002F\u002Fgithub.com\u002Fnetease-youdao\u002FQAnything\u002Ftree\u002Fv1.4.0-python) 本地知识库问答系统 OCR\n  \u003C!-- - 图像布局和字符识别：[HQ-SAM](https:\u002F\u002Fgithub.com\u002FFlagOpen\u002FHQ-SAM) 高质量分割一切 -->\n  - 视觉理解模型：\n\n    - [ ] [llava-llama3](https:\u002F\u002Follama.com\u002Flibrary\u002Fllava-llama3): Ollama 本地部署的 GPT-4V 级别视觉理解模型。\n\n  **视频模型**\n\n  - 视频转录：\n    - [Faster Whisper](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper): 快速提取视频转录内容，可在本地 CPU 上运行。\n  - 基于 LLM 的短视频内容摘要\n  - [ ] 短视频亮点识别\n  - [ ] 短视频风格类型识别\n  - [ ] 短视频内容分析与分解\n\n  \u003C!-- ![alt text](\u002Fdocs\u002Fimages\u002Fimage-14.png) -->\n\n\u003Cdiv align=\"right\">\n\n[![][back-to-top]](#readme-top)\n\n\u003C\u002Fdiv>\n\n\u003C!-- ============================================ -->\n\n#### 未来计划\n\n- [ ] **图片\u002F文本短视频内容分析及爆款内容分解**\n- [ ] **搜索相似图片\u002F文本\u002F视频**\n- [ ] **卡片图片\u002F文本内容生成**\n- [ ] **短视频内容编辑**\n\n\u003Cdiv align=\"right\">\n\n[![][back-to-top]](#readme-top)\n\n\u003C\u002Fdiv>\n\n---\n\n\u003C!-- ============================================ -->\n\n### 🤖 安装\n\n#### 文件结构介绍\n\n**QMedia 服务：**\n根据资源可用性，可以本地部署，也可以将模型服务部署在云端\n\n#### **[mm_server 安装](.\u002Fmm_server\u002FREADME.md)**\n\n- Multimodal Model Service（多模态模型服务）`mm_server`:\n\n  - 多模态模型部署和 API（应用程序编程接口）调用\n  - Ollama LLM（大型语言模型）模型\n  - 图像模型\n  - 视频模型\n  - 特征嵌入模型\n\n    \u003Cbr\u002F>\n\n#### **[mmrag_server 安装](.\u002Fmmrag_server\u002FREADME.md)**\n\n- 内容搜索与问答服务 `mmrag_server`:\n\n  - 内容卡片展示与查询\n  - 图像\u002F文本\u002F短视频内容提取、嵌入和存储服务\n  - 多模态数据 RAG（检索增强生成）检索服务\n  - 内容问答服务\n\n    \u003Cbr\u002F>\n\n#### **[qmedia_web 安装](.\u002Fqmedia_web\u002FREADME.md)**\n\n- Web 服务 `qmedia_web`:\n  语言：TypeScript\n  框架：Next.js\n  样式：Tailwind CSS\n  组件：shadcn\u002Fui\n\n\u003Cdiv align=\"right\">\n\n[![][back-to-top]](#readme-top)\n\n\u003C\u002Fdiv>\n\n---\n\n### ⭐️ 使用\n\n#### **组合使用**\n\n`mm_server` + `qmedia_web` + `mmrag_server`\n网页内容展示、内容 RAG 搜索与问答、模型服务\n\n1. 服务启动流程：\n\n```bash\n# Start mm_server service\ncd mm_server\nsource activate qllm\npython main.py\n\n# Start mmrag_server service\ncd mmrag_server\nsource activate qmedia\npython main.py\n\n# Start qmedia_web service\ncd qmedia_web\npnpm dev\n```\n\n2. 通过网页使用功能\n   在启动阶段，`mmrag_server` 将从 `assets\u002Fmedias` 和 `assets\u002Fmm_pseudo_data.json` 读取伪数据，并调用 `mm_server` 从文本\u002F图像和短视频中提取并结构化信息为 `node`（节点）信息，然后存储在 `db`（数据库）中。检索和问答将基于 `db`（数据库）中的数据。\n\n#### 自定义数据\n\n```bash\n# assets file structure\nassets\n├── mm_pseudo_data.json # Content card data\n└── medias # Image\u002FVideo files\n```\n\n替换 `assets` 中的内容并删除历史存储的 `db` 文件。\n`assets\u002Fmedias` 包含图像\u002F视频文件，可替换为您自己的图像\u002F视频文件。\n`assets\u002Fmm_pseudo_data.json` 包含内容卡片数据，可替换为您自己的内容卡片数据。运行服务后，模型将自动提取信息并存储在 `db`（数据库）中。\n\n\u003Cdiv align=\"right\">\n\n[![][back-to-top]](#readme-top)\n\n\u003C\u002Fdiv>\n\n---\n\n#### **独立模型服务**\n\n可以独立使用 `mm_server` 本地图像\u002F文本\u002F视频信息提取服务。\n它可以作为独立的图像编码、文本编码、视频转录提取和图像 OCR（光学字符识别）服务，在任何场景下均可通过 API 访问。\n\n```bash\n# Start mm_server service independently\ncd mm_server\npython main.py\n\n# uvicorn main:app --reload --host localhost --port 50110\n```\n\nAPI 内容：\n\n- http:\u002F\u002Flocalhost:50110\u002Fdocs\n\n![alt text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_10522a98d4d2.png)\n\n\u003Cbr\u002F>\n\n#### **纯 Python RAG 服务\u002F模型服务**\n\n可以通过 API 在纯 Python 环境中结合使用 `mm_server` + `qmedia_web` 进行内容提取和 RAG 检索。\n\n```bash\n# Start mmrag_server service independently\ncd mmrag_server\npython main.py\n\n# uvicorn main:app --reload --host localhost --port 50110\n```\n\nAPI 内容：\n\n- http:\u002F\u002Flocalhost:50110\u002Fdocs\n- http:\u002F\u002Flocalhost:8001\u002Fdocs\n\n![alt text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_06a5ffd69b6d.png)\n\n\u003Cdiv align=\"right\">\n\n[![][back-to-top]](#readme-top)\n\n\u003C\u002Fdiv>\n\n---\n\n### Star 历史记录\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_readme_f11d94fdbedf.png)](https:\u002F\u002Fstar-history.com\u002F#QmiAI\u002FQmedia&Date)\n\n### 许可证\n\n`QMedia` 采用 [MIT License](.\u002FLICENSE) 授权\n\n### 致谢\n\n感谢 [QAnything](https:\u002F\u002Fgithub.com\u002Fnetease-youdao\u002FQAnything\u002F) 提供强大的 OCR 模型。\n\n感谢 [llava-llama3](https:\u002F\u002Fgithub.com\u002Fnetease-youdao\u002FQAnything\u002F) 提供强大的 LLM 视觉模型。\n\n感谢 [Ghibli Image Generator](https:\u002F\u002Fghibliimagegenerator.com\u002F) 提供 API 支持。\n\n \n\n[lafe-twitter]: https:\u002F\u002Fx.com\u002FLafe8088\n[g-issues-link]: https:\u002F\u002Fgithub.com\u002FQmiAI\u002FQmedia\u002Fissues\n[back-to-top]: https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-BACK_TO_TOP-151515?style=flat-square\n[share-x-shield]: https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-share%20on%20x-black?labelColor=black&logo=x&logoColor=white&style=flat-square\n[share-x-link]: https:\u002F\u002Ftwitter.com\u002Fintent\u002Ftweet?url=https:\u002F\u002Fgithub.com\u002FQmiAI\u002FQmedia&text=Qmedia%0AAn%20open-source%20AI%20content%20search%20engine%20designed%20specifically%20for%20content%20creators.%0ASupports%20extraction%20of%20text,%20images,%20and%20short%20videos.%0AAllows%20full%20local%20deployment%20(web%20app,%20RAG%20server,%20LLM%20server).%0ASupports%20multi-modal%20RAG%20content%20QA.","# QMedia 快速上手指南\n\n**QMedia** 是一款专为内容创作者设计的开源多媒体 AI 搜索引擎。它支持图文和短视频内容的搜索、分析，并集成了多模态 RAG（检索增强生成）问答系统。核心优势在于支持全本地化部署，保护数据隐私的同时实现离线内容检索与问答。\n\n---\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n- **操作系统**：Linux \u002F macOS \u002F Windows\n- **Python**：建议版本 3.x，需配置 Conda 或虚拟环境\n- **Node.js**：用于 Web 服务前端构建\n- **包管理器**：`pnpm` (用于 Web 服务)\n- **模型服务**：可选配置 Ollama 以运行本地大语言模型 (LLM) 及视觉模型\n\n---\n\n## 安装步骤\n\n本项目由三个主要服务模块组成，可根据资源情况独立或组合部署。\n\n### 1. 克隆项目\n```bash\ngit clone \u003Crepository-url>\ncd Qmedia\n```\n\n### 2. 配置服务环境\n根据项目结构，依次进入各模块目录并激活对应的 Python 环境（具体依赖安装请参考各子目录下的 README）。\n\n- **mm_server** (多模态模型服务)\n- **mmrag_server** (RAG 搜索与问答服务)\n- **qmedia_web** (Web 前端服务)\n\n### 3. 启动服务\n按照以下顺序启动各个服务组件。\n\n#### 启动 mm_server\n```bash\ncd mm_server\nsource activate qllm\npython main.py\n```\n\n#### 启动 mmrag_server\n```bash\ncd mmrag_server\nsource activate qmedia\npython main.py\n```\n\n#### 启动 qmedia_web\n```bash\ncd qmedia_web\npnpm dev\n```\n\n---\n\n## 基本使用\n\n### 组合使用模式\n同时运行上述三个服务后，即可通过浏览器访问 Web 界面进行内容搜索与问答。\n\n1. **默认数据加载**：服务启动时，`mmrag_server` 会自动读取 `assets\u002Fmedias` 中的媒体文件及 `assets\u002Fmm_pseudo_data.json` 中的数据。\n2. **信息提取**：系统将调用 `mm_server` 对图文和视频信息进行结构化提取，存入数据库 (`db`)。\n3. **交互查询**：在 Web 页面输入关键词，系统将基于提取的信息返回搜索结果及卡片式展示。\n\n### 自定义数据\n若需使用自有素材，请按以下结构调整 `assets` 目录：\n\n```bash\nassets\n├── mm_pseudo_data.json # 替换为自定义内容卡片数据\n└── medias              # 替换为您的图片\u002F视频文件\n```\n\n**注意**：替换素材后，请删除历史存储的 `db` 文件，以便服务重新索引新数据。\n\n### 独立服务调用\n如需仅作为 API 服务集成到其他系统中，可单独启动 `mm_server` 或 `mmrag_server`。\n\n- **API 文档地址**：启动成功后访问 `http:\u002F\u002Flocalhost:50110\u002Fdocs` 查看接口详情。\n- **纯 Python RAG 模式**：结合 `mm_server` + `qmedia_web` 可通过 API 完成内容提取与检索。","一位独立纪录片博主正在筹备关于“城市变迁”的短视频系列，手头积累了大量本地历史照片、新闻截图和访谈视频素材。他急需整理这些线索以支撑脚本创作。\n\n### 没有 Qmedia 时\n- 海量素材分散在文件夹中，无法直接搜索视频画面或图片里的文字内容。\n- 需要人工逐个打开文件确认信息，查找特定年代的建筑细节耗时极长。\n- 若使用云端 AI 分析，担心未公开的创作素材泄露给第三方服务器。\n- 难以将零散的图文和视频片段整合成结构化的参考卡片，导致创作效率低下。\n\n### 使用 Qmedia 后\n- 通过多模态 RAG 技术，直接提问即可定位到相关视频帧或图片中的关键信息。\n- 支持全本地部署，所有素材处理均在私有环境完成，彻底保障数据隐私安全。\n- 自动生成内容卡片，快速提取并展示跨媒体的关联信息，大幅减少重复浏览时间。\n- 基于用户兴趣定制搜索结果，迅速筛选出符合选题方向的视觉与文本证据。\n\nQmedia 让创作者能在保护隐私的前提下，高效挖掘本地多媒体素材库的价值。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQmiAI_Qmedia_b12247a6.png","QmiAI","Qmi","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FQmiAI_390e3195.png","Multimedia content exploration, graphic and video content creation community",null,"Lafe8088","https:\u002F\u002Fgithub.com\u002FQmiAI",[83,87,91,95,98,102],{"name":84,"color":85,"percentage":86},"TypeScript","#3178c6",69.8,{"name":88,"color":89,"percentage":90},"Python","#3572A5",30,{"name":92,"color":93,"percentage":94},"Dockerfile","#384d54",0.1,{"name":96,"color":97,"percentage":94},"JavaScript","#f1e05a",{"name":99,"color":100,"percentage":101},"Shell","#89e051",0,{"name":103,"color":104,"percentage":101},"CSS","#663399",616,74,"2026-04-01T17:19:49","MIT","未说明",{"notes":111,"python":109,"dependencies":112},"项目使用 Conda 管理环境（需创建 qllm 和 qmedia 两个环境），包含三个独立服务模块（mm_server、mmrag_server、qmedia_web）。前端基于 Next.js\u002FTypeScript，后端集成 LlamaIndex 与多模态模型。支持本地离线部署，首次运行需配置 assets 目录存放媒体文件，部分模型（如 Faster Whisper）支持 CPU 运行。",[113,114,115,116,117,118,84,119,120,121],"LlamaIndex","Ollama","CLIP","BGE","Faster Whisper","Next.js","TailwindCSS","shadcn\u002Fui","Uvicorn",[52,54,13],[124,125,126,127,128,129],"content","content-search","rag","search","search-engine","video",8,"2026-03-27T02:49:30.150509","2026-04-06T05:27:02.850074",[134],{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},2393,"项目内容不完整怎么办？","如有其他需求或发现内容不完整，建议加入交流群进行沟通。","https:\u002F\u002Fgithub.com\u002FQmiAI\u002FQmedia\u002Fissues\u002F2",[]]