edit-mind

1.3k 88 中等 1 次阅读今天NOASSERTIONAgent开发框架视频图像

AI 解读由 AI 自动生成，仅供参考

edit-mind 是一款主打“本地优先”的 AI 视频智能平台，旨在成为视频创作者的“第二大脑”。它不仅能自动索引你的视频库，还能通过多模态分析技术（如 YOLO 物体检测、DeepFace 人脸识别、Whisper 语音转录）深度理解视频内容。

面对海量视频素材难以检索的痛点，edit-mind 让你摆脱繁琐的手动标签整理。只需使用自然语言描述，例如“寻找所有出现红色汽车的场景”或“搜索提到项目截止日期的片段”，它就能利用语义搜索精准定位到具体的视频画面或时间段。由于所有数据处理均在本地完成，无需上传云端，它能充分保障用户的隐私安全与数据主权。

目前 edit-mind 处于积极开发阶段，非常适合具备一定技术基础的开发者、研究人员以及注重隐私的视频编辑人员试用和贡献代码。其独特的技术亮点在于完全基于 Docker 容器化部署，开箱即用；后端融合了 ChromaDB 向量数据库进行高效语义匹配，并支持接入 Ollama、Google Gemini 等多种大模型进行自然语言处理，构建了一个灵活且强大的本地视频知识库。

使用场景

某独立纪录片导演需要整理长达 500 小时的采访与实地拍摄素材，以便快速定位特定人物发言或关键画面进行剪辑。

没有 edit-mind 时

只能依靠人工逐段拖拽进度条观看，耗时数周才能粗略浏览完所有素材。
寻找“某位受访者在提到‘环保’时的表情特写”几乎不可能，因为无法同时检索语音内容和画面细节。
视频文件散落在硬盘各处，缺乏统一的元数据索引，经常重复下载或遗漏关键片段。
担心将敏感未公开素材上传至云端 AI 服务会引发泄露风险，导致不敢使用高效的在线分析工具。
团队协作时，成员间沟通成本极高，往往需要口头描述大致时间点，效率低下且容易出错。

使用 edit-mind 后

后台自动利用 Whisper 和 YOLO 模型完成全库索引，导演可直接通过自然语言搜索“所有包含红色安全帽的工地场景”。
实现多模态精准定位，输入“张三谈论气候变化时的皱眉镜头”，系统能瞬间定位到具体的秒级时间戳。
所有分析数据本地化存储并建立向量数据库，素材无需出域，彻底保障了独家内容的隐私安全。
基于 Docker 一键部署在任意工作站上，团队成员可共享同一套本地知识库，统一检索标准。
系统持续监控新导入的视频并自动分析，确保最新拍摄的素材也能立即被语义搜索覆盖。

edit-mind 将原本非结构化的海量视频库转化为可对话的本地知识大脑，让创作者从繁琐的查找工作中解放出来，专注于内容本身。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需
若使用 NVIDIA GPU 加速，需安装支持 CUDA 的 Docker 环境（使用 docker-compose.cuda.yml），具体显存和 CUDA 版本未说明
也可选择 CPU 运行或使用云端 API (Gemini)

内存

未说明

依赖

notes1. 必须安装并运行 Docker Desktop 及 Docker Compose。 2. macOS/Windows 用户需在 Docker 设置中手动配置媒体文件夹的文件共享权限。 3. 支持两种 AI 模式：本地私有模式（需自行部署 Ollama 并下载模型如 qwen2.5:7b-instruct）或云端 API 模式（需配置 Google Gemini API Key）。 4. 首次运行前需生成加密密钥 (ENCRYPTION_KEY) 和会话密钥 (SESSION_SECRET)。 5. 项目目前处于活跃开发阶段，尚未达到生产就绪状态，可能存在功能不完整或 Bug。

python未说明 (ML 服务基于 Python，具体版本未在文档中指定)

PyTorch

PyAV

OpenAI Whisper

ChromaDB

PostgreSQL

Node.js

Express.js

BullMQ

Ollama

Google Gemini

快速开始

Edit Mind：本地视频知识库

Edit Mind 可以对您的视频进行索引（包括转录、帧分析和多模态嵌入），并且您可以通过自然语言搜索视频或特定的视频场景。

开发状态：Edit Mind 目前处于 积极开发中，尚未达到生产就绪状态。您可能会遇到功能不完整或偶尔出现的 bug。我们欢迎贡献者帮助我们实现 v1.0！

注：（Edit Mind 这个名字来源于“Video Editor Mind”，因此它将成为未来编辑的第二大脑和得力助手）

本项目的赞助商

展示视频

点击观看 Edit Mind 核心功能的演示。

为什么选择 Edit Mind？

可以通过语音、物体、人脸等关键词搜索视频。
完全在本地运行，保护用户隐私。
适用于任何安装了 Docker 的电脑或服务器。
利用 AI 提取丰富的元数据并实现语义搜索。

核心功能

视频索引与处理：后台服务会监控新上传的视频文件，并将其加入队列进行 AI 驱动的分析。
AI 驱动的视频分析：提取诸如人脸识别、语音转录、物体与文本检测、场景分析等元数据。
基于向量的语义搜索：利用 ChromaDB 对视频内容实现强大的自然语言搜索能力。

核心技术

领域	技术
Monorepo	pnpm workspaces
容器化	Docker、Docker Compose
Web 服务	React Router V7、TypeScript、Vite
后台任务服务	Node.js、Express.js、BullMQ
ML 服务	Python、PyAV、PyTorch、OpenAI Whisper、Google Gemini 或 Ollama（用于 NLP）
向量数据库	ChromaDB
关系型数据库	PostgreSQL（通过 Prisma ORM）

快速开始

Edit Mind 使用 Docker Compose 在容器中运行所有服务。

设置视频

点击观看 Edit Mind 设置指南的演示。

前置条件

已安装并运行 Docker Desktop。
就这些！其余部分都在容器中运行。

1. 创建项目目录

mkdir edit-mind
cd edit-mind

2. 配置 Docker 文件共享

重要提示：在继续之前，请配置 Docker 以访问您的媒体文件夹。

macOS/Windows：

打开 Docker Desktop
转到设置 → 资源 → 文件共享
添加存储视频的路径（例如 /Users/yourusername/Videos）
点击 应用并重启

Linux：文件共享通常默认启用。

3. 配置环境变量

Edit Mind 使用 两文件环境配置：

.env - 您的个人配置（必填）
.env.system - 系统默认值（必填）

步骤 3.1：创建您的个人配置

复制示例文件并进行自定义：

curl -L https://raw.githubusercontent.com/IliasHad/edit-mind/refs/heads/main/.env.example -o .env
curl -L https://raw.githubusercontent.com/IliasHad/edit-mind/refs/heads/main/.env.system.example -o .env.system
curl -L https://raw.githubusercontent.com/IliasHad/edit-mind/refs/heads/main/docker-compose.yml -o docker-compose.yml

如果您有 NVIDIA GPU，请使用 docker-compose.cuda.yml 文件代替：

curl -L https://raw.githubusercontent.com/IliasHad/edit-mind/refs/heads/main/docker-compose.cuda.yml -o docker-compose.yml

编辑 .env 文件并配置以下关键设置：

# 1. 设置您的视频文件夹路径（必填）
# 必须与您添加到 Docker 文件共享中的路径一致
HOST_MEDIA_PATH="/Users/yourusername/Videos"

# 2. 选择 AI 模型（任选其一）
# 选项 A：使用 Ollama（更私密，需下载模型）
USE_OLLAMA_MODEL="true"
OLLAMA_HOST="http://172.17.0.1"
OLLAMA_PORT="11434"
OLLAMA_MODEL="qwen2.5:7b-instruct"

# 请确保先使用以下命令启动 Ollama 服务器

# OLLAMA_HOST=0.0.0.0:11434 ollama serve
# 并且先拉取 Ollama 模型
# ollama pull qwen2.5:7b-instruct

# 选项 B：使用 Gemini API（需要 API 密钥）
USE_GEMINI="true"
GEMINI_API_KEY="来自 Google AI Studio 的您的 Gemini API 密钥"

# 3. 生成安全密钥（必填）
# 使用 openssl rand -base64 32 生成
ENCRYPTION_KEY="您的随机 32 字符 Base64 密钥"
# 使用 openssl rand -hex 32 生成
SESSION_SECRET="您的随机会话密钥"

快速生成密钥：

# 生成 ENCRYPTION_KEY
openssl rand -base64 32

# 生成 SESSION_SECRET
openssl rand -hex 32

4. 启动服务

只需一条命令即可启动所有服务：

docker compose up

5. 访问应用程序

当所有服务都启动并运行时（查看日志中的“ready”消息）：

Web 应用程序：http://localhost:3745

如果您使用的是 Safari 浏览器，请访问 http://127.0.0.1:3745

6. 添加您的第一批视频

打开网页应用 http://localhost:3745
使用 admin@example.com 登录，密码为 admin
进入网页应用的设置页面 http://localhost:3745/app/settings
点击 “添加文件夹”
从您的 HOST_MEDIA_PATH 位置选择一个文件夹
进入该文件夹的详情页面，点击 “重新扫描”
后台作业服务将自动开始处理您的视频，并持续监控新的视频文件事件。

特别感谢

非常感谢 Reddit 上的 r/selfhosted 社区提供的大力支持、宝贵反馈和鼓励。

原始讨论： https://www.reddit.com/r/selfhosted/comments/1ogis3j/i_built_a_selfhosted_alternative_to_googles_video/

贡献

我们欢迎各种形式的贡献！请阅读 CONTRIBUTING.md 文件，了解我们的行为准则以及提交拉取请求的流程。

开发环境搭建

如果您想扩展应用功能或修复 bug，请按照以下步骤操作。

1. 克隆仓库

git clone https://github.com/iliashad/edit-mind
cd edit-mind

2. 设置开发环境

cp .env.system.example docker/.env.system
cp .env.example docker/.env.dev

3. 以开发模式启动 Docker 容器

pnpm install
cd docker 
docker-compose -f docker-compose.dev.yml up --build

社区分享

观看 Edit Mind 在 Twelve Labs 的演示（从 21 分 12 秒开始）

许可证

本项目采用 Edit Mind 许可证授权——详情请参阅 LICENSE.md 文件。

Edit Mind 快速上手指南

Edit Mind 是一个本地视频知识库工具，支持对视频进行转录、帧分析和多模型嵌入索引。你可以使用自然语言搜索视频内容或特定场景。所有数据均在本地运行，保障隐私安全。

注意：本项目目前处于积极开发阶段，尚未达到生产就绪状态，可能存在功能不完整或偶发 Bug。

环境准备

系统要求

操作系统：macOS、Windows 或 Linux
必须安装并运行 Docker Desktop (包含 Docker Compose)
可选：NVIDIA GPU（用于加速 AI 推理，需配置 CUDA）

前置依赖

Docker Desktop
若使用 Ollama 模型，需预先在宿主机安装并运行 Ollama 服务。

安装步骤

1. 创建项目目录

mkdir edit-mind
cd edit-mind

2. 配置 Docker 文件共享

重要：必须先让 Docker 能够访问你的视频存储文件夹。

macOS/Windows:
1. 打开 Docker Desktop。
2. 进入 Settings → Resources → File Sharing。
3. 添加存放视频的路径（例如：/Users/yourusername/Videos 或 D:\Videos）。
4. 点击 Apply & Restart。
Linux: 通常默认已启用，无需额外配置。

3. 下载配置文件

根据你的硬件情况选择下载对应的 docker-compose.yml。

通用版本 (CPU):

curl -L https://raw.githubusercontent.com/IliasHad/edit-mind/refs/heads/main/.env.example -o .env
curl -L https://raw.githubusercontent.com/IliasHad/edit-mind/refs/heads/main/.env.system.example -o .env.system
curl -L https://raw.githubusercontent.com/IliasHad/edit-mind/refs/heads/main/docker-compose.yml -o docker-compose.yml

NVIDIA GPU 版本:

curl -L https://raw.githubusercontent.com/IliasHad/edit-mind/refs/heads/main/.env.example -o .env
curl -L https://raw.githubusercontent.com/IliasHad/edit-mind/refs/heads/main/.env.system.example -o .env.system
curl -L https://raw.githubusercontent.com/IliasHad/edit-mind/refs/heads/main/docker-compose.cuda.yml -o docker-compose.yml

4. 编辑环境变量 (.env)

使用编辑器打开 .env 文件，配置以下关键项：

# 1. 设置视频文件夹路径 (必填)
# 必须与步骤 2 中添加到 Docker 文件共享的路径一致
HOST_MEDIA_PATH="/Users/yourusername/Videos"

# 2. 选择 AI 模型 (二选一)

# 选项 A: 使用 Ollama (推荐，更隐私，需提前下载模型)
USE_OLLAMA_MODEL="true"
OLLAMA_HOST="http://172.17.0.1"
OLLAMA_PORT="11434"
OLLAMA_MODEL="qwen2.5:7b-instruct"
# 注意：使用前需在宿主机运行: 
# OLLAMA_HOST=0.0.0.0:11434 ollama serve
# ollama pull qwen2.5:7b-instruct

# 选项 B: 使用 Google Gemini API (需 API Key)
# USE_GEMINI="true"
# GEMINI_API_KEY="your-gemini-api-key-from-google-ai-studio"

# 3. 生成安全密钥 (必填)
# 运行下方命令生成随机字符串并填入
ENCRYPTION_KEY="your-random-32-char-base64-key"
SESSION_SECRET="your-random-session-secret"

生成密钥命令参考：

# 生成 ENCRYPTION_KEY
openssl rand -base64 32

# 生成 SESSION_SECRET
openssl rand -hex 32

5. 启动服务

在项目根目录执行：

docker compose up

等待日志中出现 "ready" 相关提示，表示服务启动成功。

基本使用

1. 访问 Web 界面

打开浏览器访问：

常规浏览器：http://localhost:3745
Safari 浏览器：http://127.0.0.1:3745

2. 登录系统

账号: admin@example.com
密码: admin

3. 添加并索引视频

登录后，进入设置页面：http://localhost:3745/app/settings
点击 "Add Folder"。
选择你在 HOST_MEDIA_PATH 中配置的文件夹。
进入该文件夹详情页，点击 "Rescan"。
后台服务将自动开始处理视频（提取元数据、转录、分析等），并持续监控新文件。

4. 搜索视频

处理完成后，即可在主界面使用自然语言（如“穿红衣服的人”、“关于会议的讨论”）搜索视频片段。

版本历史

v0.20.42026/03/17

v0.20.32026/03/15

v0.20.22026/03/15

v0.20.12026/03/14

v0.20.02026/03/14

v0.14.52026/03/10

v0.14.42026/03/04

v0.14.32026/02/25

v0.14.22026/02/24

v0.14.12026/01/30

v0.14.02026/01/28

v0.13.02026/01/15

v0.12.02025/12/26

v0.11.02025/12/07

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|3天前

开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频