LandPPT

GitHub
2.8k 388 简单 1 次阅读 今天NOASSERTION开发框架语言模型图像Agent
AI 解读 由 AI 自动生成,仅供参考

LandPPT 是一款基于大语言模型(LLM)的智能演示文稿生成平台,旨在将繁琐的 PPT 制作过程自动化。它能够将 PDF、Word、Markdown 等多种格式的文档内容,一键转换为结构清晰、设计专业的幻灯片,并自动配套生成演讲备注,有效解决了用户从零开始构思大纲、搜集素材及排版设计的痛点,大幅提升了内容创作效率。

这款工具非常适合需要频繁进行汇报的学生、职场人士、教育工作者以及希望快速原型化的研究人员使用。无论是制作学术报告、商业计划书还是教学课件,LandPPT 都能提供得力辅助。同时,由于其支持本地部署和灵活的 API 配置,也深受关注数据安全的开发者和企业团队青睐。

在技术亮点方面,LandPPT 展现了强大的兼容性与智能化能力。它不仅支持 OpenAI、Claude、Gemini 及本地 Ollama 等三十余种主流 AI 模型,允许用户按需定制以平衡成本与效果,还集成了深度研究功能,能联网获取最新信息。其独特的智能配图系统可结合本地图库、网络搜索与 AI 生成技术自动匹配图像,配合响应式模板引擎,确保生成的每一页幻灯片都兼具美观与专业性。

使用场景

某科技公司产品经理需要在 2 小时内,将一份 50 页的杂乱市场调研 PDF 和最新竞品新闻,转化为一份用于向高管汇报的专业 PPT。

没有 LandPPT 时

  • 内容提炼耗时:需人工通读几十页文档手动摘录重点,再绞尽脑汁构思大纲逻辑,极易遗漏关键数据。
  • 素材搜集困难:为了匹配每页主题,要在多个图库网站反复搜索高清配图,还要担心版权风险,耗时且效果参差不齐。
  • 排版美化繁琐:花费大量时间调整字体、对齐文本框和统一配色,往往因为格式错乱导致演示文稿显得不够专业。
  • 讲稿准备脱节:写完 PPT 后还需单独撰写演讲备注,内容与幻灯片经常对不上,增加排练时的认知负担。
  • 响应速度滞后:从拿到资料到产出初稿通常需要半天甚至一天,无法应对突发的紧急汇报需求。

使用 LandPPT 后

  • 智能大纲生成:上传 PDF 后,LandPPT 利用深度研究功能自动提取核心观点并生成逻辑严密的大纲,瞬间完成内容结构化。
  • 自动配图优化:系统根据每页语义自动从多源图库匹配或生成高质量图片,并智能调整尺寸,确保视觉风格统一且无版权顾虑。
  • 一键模板适配:选择“商务汇报”场景,LandPPT 自动生成专属母版,所有页面布局、字体和配色即刻呈现专业级视觉效果。
  • 同步讲稿输出:在生成幻灯片的同时,自动产出配套的详细演讲稿并填入备注栏,实现“页 - 稿”完美对应,随时可上台演示。
  • 极速交付成果:从上传文件到导出完整 PPT 仅需几分钟,让产品经理能将宝贵时间集中在策略思考而非机械制作上。

LandPPT 将原本需要数小时的文档转 PPT 流程压缩至分钟级,让创作者真正专注于内容价值而非形式堆砌。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU
  • 非必需
  • 若使用本地 Ollama 部署开源模型,建议配备 NVIDIA GPU,具体显存需求取决于所选模型大小
  • 若仅调用云端 API(如 OpenAI, Claude 等)则无 GPU 要求
内存

未说明(建议至少 4GB,若运行本地大模型需 16GB+)

依赖
notes1. 支持 Docker 部署或直接通过 uv/pip 安装。2. 核心功能依赖外部 AI API(如 OpenAI, Anthropic, Google 等),需在 .env 文件中配置对应的 API Key。3. 若需导出 PPTX 格式,需额外安装 apryse-sdk 并配置许可证。4. 支持通过 Ollama 完全本地化部署,无需外部 API。5. 图像生成和研究功能需配置相应的第三方服务密钥(如 Tavily, Pixabay, SiliconFlow 等)。
python3.11+
FastAPI>=0.104
uv
SQLAlchemy
Pydantic
Uvicorn
LangChain
MinerU
MarkItDown
Pillow
Playwright
LandPPT hero image

快速开始

LandPPT - 基于AI的PPT生成平台

GitHub 星标 GitHub 分支 GitHub 问题 许可证 Python FastAPI Docker Ask DeepWiki


欢迎交流合作

如果你对我的项目感兴趣,欢迎联系我!

Email


English | 中文


目录

LandPPT Logo

基于大语言模型(LLM)的智能演示文稿生成平台

LandPPT 是一个基于大语言模型(LLM)的智能演示文稿生成平台,能够自动将文档内容转换为专业的PPT演示文稿。平台集成了多种AI模型、智能图像处理、深度研究功能和丰富的模板系统,让用户能够轻松创建高质量的演示文稿

在线体验站 | 文档指南

主界面

image

image

生成大纲

image

生成效果

image

image

在线编辑

image

image

image

image

讲稿生成

image

导出效果

image

模板生成

image

功能亮点

  • 一键生成:从主题到完整PPT,全程AI自动化处理
  • 智能配图:AI自动匹配最适合的图像,支持多源获取和参考图片生成
  • TODO 任务板:全新交互式任务管理界面,实时追踪生成进度,支持复杂动画反馈
  • 深度研究:集成多个搜索引擎,获取最新最全面的信息
  • 并行生成:支持幻灯片内容并行生成,配合增强型 AI 服务显著提升构建速度
  • 演讲稿生成:智能生成配套演讲稿,支持多种导出格式
  • 视觉参考:AI编辑助手支持图像上传和视觉内容分析
  • 多文件上传:支持同时上传多个文件,批量处理更高效
  • 模型自定义:按功能自定义模型选择,精准控制成本
  • 配置中心:可视化配置AI提供商与模型,支持一键测试、模型列表获取,并支持按任务角色指定不同提供商/模型
  • 自由模板:AI自动生成项目专属母版模板,支持响应式16:9铺满展示,并适配标题/目录/内容/结尾等页面类型
  • 备注导出:支持将演讲稿导出至PPT备注栏
  • 图片导出:支持以图片格式导出PPT页面
  • 企业级安全:支持本地部署,数据安全可控

核心功能

多AI提供商支持

  • OpenAI GPT系列:GPT-4o、GPT-4o-mini 等模型,支持官方 Responses API 与 reasoning effort 推理程度参数
  • OpenAI兼容提供商:DeepSeek、Kimi、MiniMax(M2.7 / M2.5)等(通过 Base URL + API Key 接入)
  • Anthropic Claude:Claude-4 Sonnet、Claude-4 Haiku 系列模型
  • Google Gemini:Gemini-2.5 Flash、Gemini-2.5 Pro 系列模型,支持自定义端点配置
  • Ollama:本地部署的开源模型,支持 Llama、Mistral 等
  • 302.AI:OpenAI兼容接口

强大的文件处理能力

  • 多格式支持:PDF、Word、Markdown、TXT、Excel 等多种格式
  • 智能解析:使用 MinerU 和 MarkItDown 进行高质量内容提取
  • 深度研究:集成 Tavily API 和 SearXNG 的多源研究功能
  • 内容增强:自动网页内容提取和智能摘要生成

智能图像处理系统

  • 多源图像获取:本地图库、网络搜索、AI生成三合一
  • 网络图像搜索:支持 Pixabay、Unsplash 等图库
  • AI图像生成:集成 DALL-E、SiliconFlow、Pollinations、 Openai、Gemini 等服务
  • 智能图像选择:AI自动匹配最适合的图像内容
  • 图像处理优化:自动尺寸调整、格式转换、质量优化

增强研究功能

  • 多引擎搜索:Tavily 和 SearXNG 双引擎支持
  • 深度内容提取:智能网页内容解析和结构化处理
  • 多语言支持:支持中英文等多语言研究内容
  • 实时信息获取:获取最新的网络信息和数据

丰富的模板系统

  • 全局主模板:统一的HTML模板系统,支持响应式设计
  • 多样化布局:AI生成多种创意页面布局和设计风格
  • 场景化模板:通用、旅游、教育等多种专业场景模板
  • 项目适配模板:新增针对项目的适配模板生成
  • 自定义模板:支持导入和创建个性化模板
  • 参考图片生成:AI模板生成支持参考图片,智能匹配设计风格

完整的项目管理

  • 四阶段工作流:需求确认 大纲生成 TODO 进度追踪 PPT生成
  • TODO 任务看板:集成式任务管理,实时显示生成状态、日志与动画
  • 可视化编辑:直观的大纲编辑器和实时预览
  • 批量操作:支持批量生成和处理多个项目

现代化Web界面

  • 直观操作:用户友好的响应式Web界面
  • AI聊天编辑:侧边栏AI编辑功能,支持实时对话和视觉参考
  • 演讲稿生成:支持单页/多页/全部幻灯片的演讲稿生成,导出为DOCX/Markdown格式
  • 多格式导出:PDF/HTML/PPTX 多种格式导出支持
  • 实时预览:16:9 标准比例的实时页面预览

快速开始

系统要求

  • Python 3.11+
  • SQLite 3
  • Docker (可选)

本地安装

方法一:uv(推荐)

# 克隆项目
git clone https://github.com/sligter/LandPPT.git
cd LandPPT

# 安装uv(如果尚未安装)
# Windows (PowerShell)
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
# macOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh

# 使用uv同步环境
uv sync

# 安装额外依赖(可选,用于标准PPTX导出)
uv pip install apryse-sdk --extra-index-url=https://pypi.apryse.com

# 配置环境变量
cp .env.example .env
# 编辑 .env 文件,配置你的AI API密钥

# 启动服务
uv run python run.py

方法二:传统pip安装

# 克lon项目
git clone https://github.com/sligter/LandPPT.git
cd LandPPT

# 创建虚拟环境
python -m venv venv
# 激活虚拟环境
# Windows
venv\Scripts\activate
# macOS/Linux
source venv/bin/activate

# 安装依赖
pip install -e .

# 配置环境变量
cp .env.example .env
# 编辑 .env 文件,配置你的AI API密钥

# 启动服务
python run.py

Docker部署

使用预构建镜像(推荐)

# 拉取最新镜像
docker pull bradleylzh/landppt:latest

# 运行容器
docker run -d \
  --name landppt \
  -p 8000:8000 \
  -v $(pwd)/.env:/app/.env \
  -v landppt_data:/app/data \
  -v landppt_reports:/app/research_reports \
  -v landppt_cache:/app/temp \
  bradleylzh/landppt:latest

# 查看日志
docker logs -f landppt

注意: 确保在运行前创建并配置好 .env 文件,包含必要的API密钥。

使用指南

1. 访问Web界面

启动服务后,访问以下地址:

(初始账号admin密码admin123)

2. 配置AI提供商

在设置页面配置你的AI API密钥:

  • OpenAI API Key(支持openai 兼容model api,例如deepseek、moonshot、qwen等等)
  • Anthropic API Key
  • Google API Key
  • 302.AI API Key
  • 或配置本地Ollama服务

3. 创建PPT项目

  1. 需求确认:输入主题、选择受众、设置页数范围、选择场景模板
  2. 大纲生成:AI智能生成结构化大纲,支持可视化编辑
  3. 内容研究:可选择启用深度研究功能,获取最新相关信息
  4. 图像配置:配置图像获取方式(本地/网络/AI生成)
  5. PPT生成:基于大纲生成完整的HTML演示文稿

4. 编辑和导出

  • 使用AI聊天功能实时编辑内容和样式,支持图像上传进行视觉参考
  • 支持图像替换和优化,AI模板生成可参考上传的图片
  • 生成配套演讲稿,支持单页/多页/全部幻灯片模式
  • 导出为PDF、HTML、PPTX、演讲稿DOCX/Markdown格式
  • 保存项目版本和历史记录
  • 支持批量处理和模板复用

配置说明

环境变量配置

主要配置项(详见 .env.example):

# AI提供商配置
DEFAULT_AI_PROVIDER=openai  # openai / deepseek / kimi / minimax / anthropic / google / ollama / 302ai

# OpenAI
OPENAI_API_KEY=your_openai_api_key_here
OPENAI_BASE_URL=https://api.openai.com/v1
OPENAI_MODEL=gpt-4o
OPENAI_USE_RESPONSES_API=false  # 使用 OpenAI 官方 /v1/responses 接口
OPENAI_ENABLE_REASONING=false   # 启用 OpenAI reasoning 参数
OPENAI_REASONING_EFFORT=medium  # low / medium / high

# OpenAI兼容提供商(通过 Base URL + API Key 接入)
DEEPSEEK_API_KEY=
DEEPSEEK_BASE_URL=https://api.deepseek.com/v1
DEEPSEEK_MODEL=deepseek-chat

KIMI_API_KEY=
KIMI_BASE_URL=https://api.moonshot.cn/v1
KIMI_MODEL=kimi-k2.5

MINIMAX_API_KEY=
MINIMAX_BASE_URL=https://api.minimax.io/v1
MINIMAX_MODEL=MiniMax-M2.7

# 302.AI(OpenAI兼容)
302AI_API_KEY=
302AI_BASE_URL=https://api.302.ai/v1
302AI_MODEL=gpt-4o

# Anthropic
ANTHROPIC_API_KEY=your_anthropic_api_key_here
ANTHROPIC_BASE_URL=https://api.anthropic.com
ANTHROPIC_MODEL=claude-3-5-sonnet-20241022

# Google Gemini
GOOGLE_API_KEY=your_google_api_key_here
GOOGLE_BASE_URL=https://generativelanguage.googleapis.com  # 自定义Gemini端点
GOOGLE_MODEL=gemini-2.5-flash

# 服务器配置
HOST=0.0.0.0
PORT=8000
SECRET_KEY=your-secure-secret-key

# 研究功能配置
TAVILY_API_KEY=your_tavily_api_key_here        # Tavily 搜索引擎
SEARXNG_HOST=http://localhost:8888             # SearXNG 实例地址
RESEARCH_PROVIDER=tavily                       # 研究提供商:tavily, searxng, both

# 图像服务配置
ENABLE_IMAGE_SERVICE=true                      # 启用图像服务
PIXABAY_API_KEY=your_pixabay_api_key_here     # Pixabay 图库
UNSPLASH_ACCESS_KEY=your_unsplash_key_here    # Unsplash 图库
SILICONFLOW_API_KEY=your_siliconflow_key_here # AI图像生成
POLLINATIONS_API_BASE=https://gen.pollinations.ai # Pollinations 图片接口
POLLINATIONS_API_TOKEN=your_pollinations_api_key # Pollinations API Key(Authorization: Bearer 或 ?key=)
POLLINATIONS_MODEL=flux                       # Pollinations 图片模型(flux/kontext/turbo 等)

# 导出功能配置
APRYSE_LICENSE_KEY=your_apryse_key_here       # PPTX导出

# 生成参数
MAX_TOKENS=8192
TEMPERATURE=0.7

说明:OpenAI 提供商可通过 OPENAI_USE_RESPONSES_API=true 切换到官方 /v1/responses 接口,并在启用 OPENAI_ENABLE_REASONING=true 后使用 OPENAI_REASONING_EFFORT=low|medium|high 配置推理程度。

API文档

启动服务后访问:

  • Swagger UI: http://localhost:8000/docs
  • ReDoc: http://localhost:8000/redoc

技术栈

后端技术

  • FastAPI: 现代化的Python Web框架,支持异步处理
  • SQLAlchemy: ORM数据库操作,支持多种数据库
  • Pydantic: 数据验证和序列化,类型安全
  • Uvicorn: 高性能ASGI服务器

AI集成

  • OpenAI: GPT-4o、GPT-4o-mini 等最新模型
  • OpenAI-Compatible: DeepSeek / Kimi / MiniMax / 302.AI(通过 OpenAI SDK 的 Base URL 接入)
  • Anthropic: Claude-4.5 系列模型
  • Google AI: Gemini-2.5 系列模型
  • LangChain: AI应用开发框架和工具链
  • Ollama: 本地模型部署和管理

文件处理

  • MinerU: 高质量PDF智能解析和结构化提取
  • MarkItDown: 多格式文档转换(Word、Excel、PowerPoint等)
  • BeautifulSoup4: HTML/XML解析和处理

图像处理

  • Pillow: 图像处理和格式转换
  • OpenAI DALL-E: AI图像生成
  • SiliconFlow: 国产AI图像生成服务
  • Pollinations: gen.pollinations.ai 图片生成 API,支持多模型

研究功能

  • Tavily: 专业搜索引擎API
  • SearXNG: 开源元搜索引擎
  • Playwright: 网页内容提取

导出功能

  • Playwright: HTML转PDF高质量导出
  • Apryse SDK: 专业PPT生成和转换

贡献指南

欢迎所有形式的贡献!

如何贡献

  1. Fork 本仓库
  2. 创建特性分支 (git checkout -b feature/AmazingFeature)
  3. 提交更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 开启 Pull Request

详情请见 贡献指南

报告问题

如果你发现了bug或有功能建议,请在 Issues 页面创建新的issue。

常见问题

Q: 支持哪些AI模型?

A: 支持 OpenAI、Anthropic Claude、Google Gemini、Ollama,以及 OpenAI 兼容提供商(DeepSeek / Kimi / MiniMax / 302.AI)。可以在配置页面切换不同的AI提供商。其中 OpenAI 提供商支持 Responses API 请求模式和 reasoning effort 推理程度参数。

Q: 如何配置图像功能?

A: 在 .env 文件中配置相应的API密钥:

  • Pixabay: PIXABAY_API_KEY
  • Unsplash: UNSPLASH_ACCESS_KEY
  • AI生成: SILICONFLOW_API_KEYPOLLINATIONS_API_TOKEN

Q:在使用反向代理(如Nginx、Apache等)时,如果没有正确配置base_url,会出现以下问题:

  • 图片链接仍然显示为localhost:8000
  • 前端无法正确加载图片
  • 图片预览、下载等功能异常

A: 通过Web界面配置

  1. 访问系统配置页面:https://your-domain.com/ai-config
  2. 切换到"应用配置"标签页
  3. 在"基础URL (BASE_URL)"字段中输入您的代理域名
  4. 例如:https://your-domain.comhttp://your-domain.com:8080
  5. 点击"保存应用配置"

Q: 研究功能如何使用?

A: 配置 TAVILY_API_KEY 或部署 SearXNG 实例,然后在创建PPT时启用研究功能即可自动获取相关信息。

Q: 支持本地部署吗?

A: 完全支持本地部署,可以使用 Docker 或直接安装。支持 Ollama 本地模型,无需依赖外部API。

Q: 如何导出PPTX格式?

A: 需要配置 APRYSE_LICENSE_KEY,然后在导出选项中选择PPTX格式。

Q: 并行生成会影响PPT质量吗?

A: 不会。并行生成只是改变了生成顺序,每页的生成逻辑和质量保持不变。

Q: 所有AI提供商都支持批量生成吗?

A: 大多数AI提供商支持并发请求,但可能有不同的限制。建议查看您使用的AI服务的API文档。

许可证

本项目采用 Apache License 2.0 许可证。详情请见 LICENSE 文件。

Star History

Star History Chart

联系我们


如果这个项目对你有帮助,请给我们一个 Star!

Made with by the LandPPT Team

版本历史

v0.1.82026/01/17
v0.1.72025/12/21
v0.1.62025/11/30
v0.1.52025/11/01

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|3天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

145.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.1k|★★☆☆☆|今天
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|2天前
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|2天前
语言模型图像Agent