MinerU

58.2k 4.8k 中等 3 次阅读今天AGPL-3.0图像数据工具其他开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

MinerU 是一款专为大语言模型（LLM）打造的文档解析工具，旨在将复杂的 PDF 文件高效转化为机器易读的 Markdown 或 JSON 格式。在日常工作中，许多用户面临从扫描版论文、技术手册或包含复杂排版的文档中提取高质量文本的难题，传统方法往往难以保留原有的公式、表格和结构信息，导致后续 AI 处理效果不佳。MinerU 正是为了解决这一痛点而生，它能精准识别并还原文档中的多栏布局、数学公式及图表内容，确保输出数据干净、结构化，直接适配各类智能体（Agentic）工作流。

这款工具特别适合开发者、数据科学家以及需要构建知识库的研究人员使用。无论是希望微调专属模型的算法工程师，还是试图搭建企业级 RAG（检索增强生成）系统的技术团队，MinerU 都能提供强有力的支持。其核心技术亮点在于对复杂版面分析的深度优化，不仅支持批量处理，还能在保持高准确率的同时，大幅降低数据清洗的人力成本。通过 MinerU，用户可以轻松打通从原始文档到 AI 应用的数据链路，让非结构化文档真正变成可被智能体理解的高价值资产。

使用场景

某金融科技公司的数据团队需要构建一个基于大模型的财报分析助手，首要任务是将数千份包含复杂表格、公式和多栏排版的上市公司 PDF 年报转化为高质量的结构化数据。

没有 MinerU 时

排版混乱导致信息丢失：直接提取的文本往往打乱原有的多栏布局，导致段落顺序错乱，大模型无法理解上下文逻辑。
表格与公式解析失败：PDF 中的关键财务表格被拆解为无意义的纯文本，数学公式变成乱码，严重阻碍量化分析。
人工清洗成本极高：工程师需编写大量脆弱的正则规则或安排专人手动校对，处理一份百页财报平均耗时数小时。
非结构化数据难利用：由于缺乏统一的 Markdown 或 JSON 格式，后续的智能体（Agent）工作流难以自动调用这些数据进行推理。

使用 MinerU 后

完美还原文档结构：MinerU 精准识别并重组多栏排版，输出的 Markdown 完整保留了标题层级和阅读顺序，确保语义连贯。
高精度还原图表公式：自动将复杂财务报表转换为标准的 Markdown 表格，并将数学公式转为 LaTeX 格式，直接可供计算引擎使用。
自动化流程效率倍增：无需人工干预，MinerU 可在分钟级内完成单份财报的清洗与转换，整体数据处理效率提升数十倍。
无缝对接智能体工作流：生成的标准化 JSON/Markdown 数据可直接喂给下游 LLM，让财报分析助手能立即执行趋势预测和风险预警任务。

MinerU 通过将“死”的复杂文档瞬间转化为大模型可理解的“活”数据，彻底打通了从原始资料到智能决策的最后一公里。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需
支持纯 CPU 运行（pipeline 后端）
若使用 VLM 引擎或追求高精度/高吞吐，建议使用 NVIDIA GPU（支持 CUDA），并兼容国产 AI 芯片（如昇腾、寒武纪等）
具体显存和 CUDA 版本未在片段中明确说明

内存

未说明（提及 pipeline 后端资源占用极低）

依赖

notes1. 提供多种推理后端：pipeline（CPU/GPU 通用，低资源）、vlm-engine（高精度，需 GPU）、hybrid-engine（混合模式）。2. 原生支持 DOCX 解析，无需转为 PDF。3. 支持多种部署方式：Python SDK、CLI、REST API、Docker 及桌面客户端。4. 兼容多种国产 AI 芯片（昇腾、寒武纪、摩尔线程等）。5. 具体依赖库版本需参考官方 requirements 文件，此处仅列出核心组件。

python3.8+

mineru

mineru-api

torch (可选，用于 GPU 加速)

vLLM/LMDeploy/mlx (可选，用于 VLM 引擎)

快速开始

英语 | 简体中文

🚀立即访问 MinerU→✅ 无需安装的网页版 ✅ 功能齐全的桌面客户端 ✅ 即时 API 访问；告别部署烦恼，一键获取所有产品形态。开发者们，快来体验吧！

👋 欢迎加入我们的 Discord 和微信

MinerU — 面向 LLM · RAG · Agent 工作流的高精度文档解析引擎

可将 PDF · Word · PPT · 图片 · 网页转换为结构化 Markdown / JSON · VLM+OCR 双引擎 · 支持 109 种语言
MCP 服务器 · LangChain / Dify / FastGPT 原生集成 · 支持 10 多款国产 AI 芯片

🔍 核心解析能力

公式 → LaTeX · 表格 → HTML，精准还原布局
支持扫描件、手写文字、多栏布局、跨页表格合并
输出遵循人类阅读顺序，并自动去除页眉页脚
VLM + OCR 双引擎，支持 109 种语言的 OCR 识别

🔌 集成

使用场景	解决方案
AI 编程工具	MCP 服务器 — Cursor · Claude Desktop · Windsurf
RAG 框架	LangChain · LlamaIndex · RAGFlow · RAG-Anything · Flowise · Dify · FastGPT
开发	Python / Go / TypeScript SDK · CLI · REST API · Docker
无代码	mineru.net 在线版 · Gradio WebUI · 桌面客户端

🖥️ 部署（私有·完全离线）

推理后端	最佳适用场景
pipeline	速度快且稳定，无幻觉，可在 CPU 或 GPU 上运行
vlm-engine	精度高，支持 vLLM / LMDeploy / mlx 生态系统
hybrid-engine	精度高，原生文本提取，幻觉少

国产 AI 芯片：Ascend · Cambricon · Enflame · MetaX · Moore Threads · Kunlunxin · Iluvatar · Hygon · Biren · T-Head

更改日志

2026年3月29日 3.0.0 发布

本次发布围绕 解析能力、系统架构和工程可用性 进行了系统性升级。主要更新包括：
- 原生 DOCX 解析
  - 正式支持原生 DOCX 解析，结果精确无幻觉。
  - 相比于传统先将 DOCX 转为 PDF 再解析的工作流程，端到端速度提升了数十倍，更适合对准确性和吞吐量都有较高要求的场景。
- pipeline 后端升级
  - pipeline 后端在 OmniDocBench (v1.5) 上得分达到 86.2，超越了上一代主流 VLM MinerU2.0-2505-0.9B 的准确率。
  - 新增支持解析表格内的图片/公式、印章文字识别、竖排文本支持以及行间公式编号识别等功能，持续提升复杂文档场景下的解析质量。
  - 在保持高精度的同时，资源占用极低，继续支持纯 CPU 环境下的推理。
- API / CLI / Router 编排升级
  - mineru 现在以 mineru-api 为基础运行编排客户端；当未提供 --api-url 时，会自动启动本地临时服务。
  - mineru-api 新增异步任务接口 POST /tasks，支持任务提交、状态查询和结果获取；同时保留同步解析接口 POST /file_parse，以兼容旧版插件。
  - 新增 mineru-router，专为多服务、多 GPU 环境下的统一入口部署及任务路由设计；其接口与 mineru-api 完全兼容，支持自动任务负载均衡。
- 部署与可用性改进
  - 解决了与 torch >= 2.8 的兼容性问题；基础镜像已升级至 vllm0.11.2 + torch2.9.0，统一了不同计算能力下的安装路径。
  - 优化了解析管道中的滑动窗口机制，大幅降低了长文档场景下的峰值内存使用，数万页的文档不再需要手动拆分。
  - pipeline 中的批处理推理现在支持流式写入磁盘，已完成的解析结果可以及时写出，进一步改善长时间任务的体验。
  - 完成了线程安全优化，全面支持多线程并发推理；结合 mineru-router，实现了多 GPU 的一键部署，轻松构建高并发、高吞吐量的解析系统。
  - 彻底移除了两个 AGPLv3 许可模型（doclayoutyolo 和 mfd_yolov8）以及一个 CC-BY-NC-SA 4.0 许可模型（layoutreader）。
本次更新不仅是功能上的增强，更是 MinerU 整体系统能力的一次关键飞跃。我们特别解决了长文档解析中的峰值内存问题。通过滑动窗口和流式写盘等优化措施，超长文档解析已从“需手动拆分、小心处理”转变为“稳定、可扩展，可直接用于生产工作负载”。与此同时，我们完成了线程安全优化，全面启用了多线程并发推理，进一步提升了单机资源利用率和高并发工作负载下的运行稳定性。在此基础上，借助 mineru-router 和全新的 API / CLI 编排框架，MinerU 现已支持多 GPU 的一键部署、多服务间的统一接入以及任务的自动负载均衡，大大降低了大规模部署的难度。因此，MinerU 正在从一款独立的数据生产工具，演变为面向高并发、高吞吐量场景的大规模文档解析基础平台，为企业级文档数据处理提供更加稳定、高效且易于扩展的基础设施。

📝 查看完整更改日志获取更多历史版本信息

MinerU

项目介绍

MinerU 是一款文档解析工具，可将 PDF、图像和 DOCX 格式的输入转换为机器可读的格式，如 Markdown 和 JSON，以便进行下游的检索、提取和处理。 MinerU 诞生于 InternLM 的预训练过程中。我们专注于解决科学文献中的符号转换问题，希望为大模型时代的技术发展贡献力量。与知名的商业产品相比，MinerU 仍处于起步阶段。如果您遇到任何问题或结果不符合预期，请在 issue 上提交问题，并 附上相关文档或示例文件。

https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c

核心功能

支持 PDF、图像和 DOCX 输入。
去除页眉、页脚、脚注、页码等，确保语义连贯性。
按照人类阅读顺序输出文本，适用于单栏、多栏及复杂布局。
保留原始文档的结构，包括标题、段落、列表等。
提取图片、图片说明、表格、表标题和脚注。
自动识别并把文档中的公式转换为 LaTeX 格式。
自动识别并把文档中的表格转换为 HTML 格式。
自动检测扫描版 PDF 和乱码 PDF，并启用 OCR 功能。
OCR 支持 109 种语言的检测与识别。
支持多种输出格式，如多模态和 NLP Markdown、按阅读顺序排序的 JSON，以及丰富的中间格式。
支持多种可视化结果，包括布局可视化和跨度可视化，以高效确认输出质量。
内置 CLI、FastAPI 和 Gradio WebUI，便于本地编排和多服务部署。
支持纯 CPU 环境运行，同时也支持 GPU(CUDA)/NPU(CANN)/MPS 加速。
兼容 Windows、Linux 和 Mac 平台。

快速开始

如果在安装过程中遇到任何问题，请先参阅常见问题解答。
如果解析结果不符合预期，请参考已知问题。

在线体验

官方在线 Web 应用

官方在线版本与客户端功能相同，界面美观、功能丰富，需登录后使用。

基于Gradio的在线演示

基于Gradio开发的Web界面，界面简洁，仅提供核心解析功能，无需登录

本地部署

[!WARNING] 安装前须知—硬件与软件环境支持

为确保项目的稳定性和可靠性，我们在开发过程中仅针对特定的硬件和软件环境进行优化和测试。这样可以保证用户在推荐的系统配置上部署和运行项目时，能够获得最佳性能并减少兼容性问题。

通过将资源集中在主流环境中，我们的团队可以更高效地解决潜在的bug并开发新功能。

在非主流环境中，由于硬件和软件配置的多样性以及第三方依赖的兼容性问题，我们无法保证项目100%可用。因此，对于希望在非推荐环境下使用本项目的人士，建议先仔细阅读文档和常见问题解答。大多数问题在FAQ中已有相应的解决方案。我们也鼓励社区反馈，以帮助我们逐步扩大支持范围。

解析后端	pipeline	*-auto-engine		*-http-client
解析后端	pipeline	hybrid	vlm	hybrid	vlm
后端特性	兼容性好	硬件要求高		适用于OpenAI兼容服务器²
准确率¹	86+	90+
操作系统	Linux³ / Windows⁴ / macOS⁵
纯CPU支持	✅	❌		✅
GPU加速	Volta及更高架构的GPU或Apple Silicon				无需
最小显存	4GB	8GB	8GB	2GB	无需
内存	最低16GB，推荐32GB及以上			最低16GB
磁盘空间	最低20GB，建议使用SSD			最低2GB
Python版本	3.10-3.13

¹ 准确率指标基于MinerU最新版本，在OmniDocBench（v1.5）中的端到端评估总分。
² 兼容OpenAI API的服务器，例如本地模型服务器或通过vLLM/SGLang/LMDeploy等推理框架部署的远程模型服务。
³ Linux仅支持2019年及以后发布的发行版。
⁴ 由于关键依赖项ray在Windows上不支持Python 3.13，因此仅支持3.10~3.12版本。
⁵ macOS需要14.0或更高版本。

安装MinerU

使用pip或uv安装MinerU

pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"

从源代码安装MinerU

git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[all]

[!TIP] mineru[all]包含所有核心功能，兼容Windows / Linux / macOS系统，适合大多数用户。如果您需要指定VLM模型的推理框架，或者仅打算在边缘设备上安装轻量级客户端，请参阅文档中的扩展模块安装指南。

使用Docker部署MinerU

MinerU提供了便捷的Docker部署方式，可以帮助快速搭建环境并解决一些棘手的环境兼容性问题。您可以在文档中找到Docker部署说明。

使用MinerU

如果您的设备符合上表中的GPU加速要求，您可以使用简单的命令行进行文档解析：

mineru -p <input_path> -o <output_path>

如果您的设备不符合GPU加速要求，可以将后端指定为pipeline，以便在纯CPU环境下运行：

mineru -p <input_path> -o <output_path> -b pipeline

mineru目前支持本地PDF、图像和DOCX文件或目录输入，并可通过CLI、API、WebUI以及mineru-router进行文档解析。有关详细说明，请参阅使用指南。

待办事项

基于模型的阅读顺序
主文中index和list的识别
表格识别
标题分类
手写文本识别
竖排文本识别
拉丁文重音符号识别
主文中代码块识别
化学式识别(mineru.net)
几何形状识别

已知问题

阅读顺序由模型根据可读内容的空间分布决定，在布局极其复杂的区域可能会出现顺序错乱。
对竖排文本的支持有限。
目录和列表通过规则识别，某些不常见的列表格式可能无法被识别。
布局模型中尚未支持代码块。
漫画书、艺术画册、小学教材和练习册等难以很好地解析。
表格识别在复杂表格中可能出现行列识别错误。
OCR识别在小语种PDF中可能出现字符不准确的情况（如拉丁字母中的变音符号、阿拉伯文字中容易混淆的字符）。
部分公式在Markdown中可能无法正确渲染。

常见问题解答

如果在使用过程中遇到任何问题，您可以先查看常见问题解答以寻找解决方案。
如果问题仍未解决，您也可以使用DeepWiki与AI助手互动，它能够解决大多数常见问题。
如果仍然无法解决问题，欢迎您通过Discord或微信加入我们的社区，与其他用户和开发者交流讨论。

感谢所有贡献者

许可证信息

LICENSE.md

本仓库中的源代码采用AGPLv3许可证。

致谢

引用

@article{dong2026minerudiffusion,
  title={MinerU-Diffusion: 将文档OCR重新思考为基于扩散解码的逆向渲染},
  author={Dong, Hejun and Niu, Junbo and Wang, Bin and Zeng, Weijun and Zhang, Wentao and He, Conghui},
  journal={arXiv预印本 arXiv:2603.22458},
  year={2026}
}

@article{niu2025mineru2,
  title={Mineru2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型},
  author={Niu, Junbo and Liu, Zheng and Gu, Zhuangcheng and Wang, Bin and Ouyang, Linke and Zhao, Zhiyuan and Chu, Tao and He, Tianyao and Wu, Fan and Zhang, Qintong et al.},
  journal={arXiv预印本 arXiv:2509.22186},
  year={2025}
}

@article{wang2024mineru,
  title={Mineru：一种开源的精确文档内容提取解决方案},
  author={Wang, Bin and Xu, Chao and Zhao, Xiaomeng and Ouyang, Linke and Wu, Fan and Zhao, Zhiyuan and Xu, Rui and Liu, Kaiwen and Qu, Yuan and Shang, Fukai et al.},
  journal={arXiv预印本 arXiv:2409.18839},
  year={2024}
}

@article{he2024opendatalab,
  title={Opendatalab：以开放数据集赋能通用人工智能},
  author={He, Conghui and Li, Wei and Jin, Zhenjiang and Xu, Chao and Wang, Bin and Lin, Dahua},
  journal={arXiv预印本 arXiv:2407.13773},
  year={2024}
}

星标历史

链接

MinerU 快速上手指南

MinerU 是一款高精度的文档解析引擎，专为 LLM、RAG 和 Agent 工作流设计。它支持将 PDF、Word、PPT、图片及网页转换为结构化的 Markdown 或 JSON，具备公式转 LaTeX、表格转 HTML 及多语言 OCR 识别能力。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux (推荐), macOS, Windows
Python 版本：3.8 - 3.12
硬件要求：
- CPU 模式：无特殊要求，适合轻量级任务。
- GPU 模式：推荐 NVIDIA GPU (CUDA 11.8+) 以获得更快的推理速度；同时也支持昇腾 (Ascend)、寒武纪等国产 AI 芯片。
前置依赖：建议安装 pip 包管理工具，并确保网络连接畅通（若访问 GitHub 或 PyPI 较慢，建议使用国内镜像源）。

安装步骤

方式一：通过 PyPI 安装（推荐）

使用 pip 直接安装最新稳定版。国内用户推荐使用清华或阿里镜像源加速下载。

# 使用默认源安装
pip install mineru

# 或使用国内镜像源加速安装
pip install mineru -i https://pypi.tuna.tsinghua.edu.cn/simple

方式二：从源码安装

如果您需要体验最新功能或进行二次开发，可以从 GitHub 克隆源码安装。

git clone https://github.com/opendatalab/MinerU.git
cd MinerU
pip install -e .

注意：首次运行时，MinerU 会自动下载所需的模型文件。如果网络受限，请参照官方文档配置模型下载路径或使用离线包。

基本使用

安装完成后，您可以通过命令行工具 mineru 快速开始文档解析。

1. 解析单个文件

最简单的用法是直接指定输入文件（支持 PDF, DOCX, PNG, JPG 等）和输出目录。

mineru input.pdf -o output_dir

input.pdf: 待解析的文档路径。
-o output_dir: 解析结果（Markdown 文件及提取的图片）保存的目录。

2. 批量解析文件夹

您可以直接对一个包含多个文档的文件夹进行批量处理：

mineru ./docs_folder -o ./results

3. 指定后端引擎

MinerU 支持多种解析后端，默认为 pipeline（速度快、资源占用低）。如需更高精度（特别是复杂公式和表格），可指定 vlm-engine 或 hybrid-engine（需确保已配置相应的 VLM 模型环境）：

# 使用高精度 VLM 引擎
mineru input.pdf -o output_dir --backend vlm-engine

4. 查看帮助

更多高级参数（如指定语言、输出格式、并发数等）可通过以下命令查看：

mineru --help

解析完成后，您将在输出目录中获得包含完整排版信息、公式（LaTeX）和表格（HTML）的 Markdown 文件，可直接用于 RAG 知识库构建或大模型训练。

版本历史

mineru-3.0.8-released2026/04/03

mineru-3.0.7-released2026/04/01

mineru-3.0.6-released2026/04/01

mineru-3.0.5-released2026/03/31

mineru-3.0.4-released2026/03/30

mineru-3.0.3-released2026/03/30

mineru-3.0.1-released2026/03/29

mineru-3.0.0-released2026/03/28

mineru-2.7.6-released2026/02/06

mineru-2.7.5-released2026/02/02

mineru-2.7.4-released2026/01/30

mineru-2.7.3-released2026/01/26

mineru-2.7.2-released2026/01/23

mineru-2.7.1-released2026/01/06

mineru-2.7.0-released2025/12/30

mineru-2.6.8-released2025/12/15

mineru-2.6.7-released2025/12/12

mineru-2.6.6-released2025/12/01

mineru-2.6.5-released2025/11/26

mineru-2.6.4-released2025/11/04

常见问题

如何部署支持多 GPU 并行处理的 MinerU 服务？

为什么使用 pip 安装时始终获取到旧版本（如 0.6.1）而不是最新版？

在 Dify 中集成 MinerU 插件时报错"UnsupportedProtocol"或 URL 缺失协议怎么办？

在 GPU 环境下开启表格识别（is_table_recog_enable: true）时报错"axis 2 is out of bounds"如何解决？

如何在 Docker 容器中正确安装指定版本的 magic-pdf？

多 GPU 服务部署时，worker 启动过多导致 onnxruntime 报线程资源不足错误的原因是什么？

PDF 中包含非简体中文（如粤语）时识别效果不佳或未开启 OCR 怎么办？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|3天前

开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频