Paper2Any

GitHub
2.1k 145 较难 1 次阅读 今天Apache-2.0图像开发框架Agent
AI 解读 由 AI 自动生成,仅供参考

Paper2Any 是一款专注于科研多模态工作流的智能工具,旨在帮助用户将学术论文(PDF)、截图、纯文本或研究主题,一键转化为可编辑的研究图表、技术路线图、实验数据图以及演示文稿(PPT)。

在科研工作中,研究人员往往需要耗费大量时间手动绘制复杂的模型结构图或制作汇报幻灯片。Paper2Any 通过 AI 技术自动化了这一繁琐过程,不仅支持从非结构化文档中提取关键信息生成可视化内容,还确保了输出结果的可编辑性,让用户能轻松进行二次调整。此外,它近期还扩展了视频生成、海报制作及论文回复信起草等功能,全面覆盖科研展示与沟通场景。

这款工具特别适合高校研究人员、研究生、算法工程师以及需要频繁进行学术汇报的教育工作者使用。无论是需要快速梳理论文思路,还是准备会议展示材料,Paper2Any 都能显著提升效率。

其技术亮点在于强大的多文件格式解析能力与灵活的三层模型配置系统,用户可根据需求选择不同的大模型策略。同时,工具集成了 Drawio 支持,能够生成专业的矢量流程图,并具备图像感知修订功能,确保生成的图表既美观又符合学术规范。

使用场景

某高校计算机视觉实验室的博士生李明,刚完成一篇关于新型神经网络架构的论文初稿,急需将文中复杂的模型结构和实验数据转化为高质量的学术图表与会议汇报 PPT。

没有 Paper2Any 时

  • 绘图耗时极长:需要手动在 Visio 或 Draw.io 中重新绘制模型架构图,反复调整线条对齐和配色,往往耗费数天时间。
  • 信息提取易错:从 PDF 论文中摘录实验数据并重绘曲线图时,容易因人工抄录导致数据偏差,且风格难以统一。
  • PPT 制作繁琐:为了准备组会汇报,需手动将文字内容拆解到幻灯片,再逐一插入图片,排版过程机械且枯燥。
  • 修改成本高昂:一旦论文逻辑微调,所有相关的图表和幻灯片都需要人工逐个返工,版本管理混乱。

使用 Paper2Any 后

  • 一键生成可编辑图表:直接上传论文 PDF,Paper2Any 自动解析并生成标准的模型架构图和技术路线图,输出为可二次编辑的 Draw.io 格式。
  • 精准还原实验数据:工具自动识别文中的实验结果,瞬间重绘出高保真的实验对比曲线图,确保数据零误差且风格专业。
  • 自动化构建演示文稿:输入论文主题,Paper2Any 即刻生成包含完整逻辑链条的多页 PPT,自动匹配学术风格模板并填入核心内容。
  • 敏捷响应迭代需求:当论文内容更新时,只需重新运行流程,所有图表和幻灯片自动同步最新逻辑,大幅缩短修改周期。

Paper2Any 将研究人员从繁琐的“美工”工作中解放出来,实现了从论文原稿到高质量学术可视化成果的分钟级转化。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notesREADME 中未详细列出具体的系统依赖库、GPU 型号或内存需求。该工具支持多种大模型(如 GPT-4o, Qwen-VL)并通过 API 动态配置,因此实际运行资源取决于所选用的后端模型服务。项目提供在线演示环境,本地部署需参考 docs/ 目录下的详细文档。
python3.11+
未说明
Paper2Any hero image

快速开始

Paper2Any Logo

Paper2Any

Python License GitHub Repo Stars

English | 中文

OpenDCAI%2FPaper2Any | Trendshift

专注于论文多模态工作流:从论文PDF/截图/文本一键生成模型示意图、技术路线图、实验图表及演示文稿

| 📄 通用文件支持  |  🎯 AI赋能生成  |  🎨 自定义样式  |  ⚡ 闪电般速度 |


Quickstart Online Demo Docs Contributing WeChat

Paper2Any Web Interface

📑 目录


🔥 新闻

[!TIP] 🆕 2026-03-28 · 可编辑PPT展示更新
为前端演示文稿工作流新增了两张可编辑PPT的展示截图:
包括生成的多幻灯片画廊视图,以及带有主题锁定的画布编辑工作区。

[!TIP] 🆕 2026-03-26 · 工作流展示更新
增加了对Paper2VideoPaper2PosterPaper2Citation的展示内容。
README现在包含一个压缩视频演示,以及更新后的英文和中文工作流预览。

[!TIP] 🆕 2026-02-02 · Paper2Rebuttal
新增反驳草稿支持,提供结构化回复指导和图像感知的修订提示。

[!TIP] 🆕 2026-01-28 · Drawio更新
在工作流中增加了Drawio支持,用于创建可视化图表,并生成适合展示的输出。
知识库更新一句话:支持多文件PPT生成,具备文档转换与合并功能,可选插入图片,并结合嵌入式检索。

[!TIP] 🆕 2026-01-25 · 新功能
新增了AI辅助大纲编辑三层模型配置系统以实现灵活的模型选择,以及用户积分管理并每日分配额度。
🌐 在线演示: http://dcai-paper2any.nas.cpolar.cn/

[!TIP] 🆕 2026-01-20 · Bug修复
修复了实验图表生成中的bug(图像/文本相关),并解决了历史文件丢失的问题。
🌐 在线演示: http://dcai-paper2any.nas.cpolar.cn/

[!TIP] 🆕 2026-01-14 · 功能更新与后端架构升级

  1. 功能更新:新增了Image2PPT,优化了Paper2Figure的交互体验,并提升了PDF2PPT的效果。
  2. 标准化API:重构了后端接口,采用RESTful /api/v1/结构,移除了过时的端点以提高可维护性。
  3. 动态配置:通过API参数支持动态模型选择(如GPT-4o、Qwen-VL),消除了硬编码的模型依赖。
    🌐 在线演示: http://dcai-paper2any.nas.cpolar.cn/
  • 2025-12-12 · Paper2Figure网页公测上线
  • 2025-10-01 · 发布首个版本 0.1.0

✨ 核心功能

从论文PDF/图片/文本出发,一键生成可编辑的科学图表、演示文稿、视频脚本、学术海报等多模态内容。

Paper2Any目前包含以下子能力:

  • 📊 Paper2Figure - 可编辑的科学图表:包括模型架构图、技术路线图(PPT + SVG)以及实验图表,最终输出可编辑的PPTX文件。
  • 🧩 Paper2Diagram / Image2Drawio - 可编辑的图表:根据论文或文本、图片生成draw.io格式的图表,支持导出为drawio/png/svg格式,并可通过聊天方式进行编辑。
  • 🎬 Paper2PPT - 可编辑的演示文稿:将论文、文本或主题内容转化为PPT,支持长文档处理,并内置表格和图表提取功能。
  • 📝 Paper2Rebuttal:基于证据撰写结构化的反驳意见和修改建议。
  • 🖼️ PDF2PPT - 版面保持转换:实现PDF到可编辑PPTX的精准版面保留。
  • 🖼️ Image2PPT - 图片转幻灯片:将图片或截图转化为结构化的幻灯片。
  • 🎨 PPTPolish - 智能美化:利用AI进行布局优化和风格转换。
  • 🎬 Paper2Video:生成视频脚本和旁白素材。
  • 🖼️ Paper2Poster - 学术海报:将论文PDF转化为海报级排版,支持自定义版块、添加Logo,并导出成品。
  • 🔎 Paper2Citation - 引用探索器:通过作者姓名或DOI/论文链接,追踪引用该论文的作者、机构及后续重要研究成果。
  • 📝 Paper2Technical:生成技术报告和方法总结。
  • 📚 知识库(KB):支持知识导入与嵌入、语义搜索,以及基于知识库生成PPT、播客和思维导图等功能。

📸 展示

🧩 Drawio


✨ 上传纸质图表或截图作为起点

✨ 在转换前保持源结构可见

✨ 将图像转换为可编辑的 DrawIO 画布


✨ 直接在 DrawIO 工作台中生成模型或系统图

✨ 使用聊天编辑功能完善生成的架构,并导出准备就绪的布局

📝 Paper2Rebuttal:反驳稿撰写



✨ 反驳稿撰写与修订支持

📊 Paper2Figure:科学图表生成



✨ 模型架构图生成

✨ 模型架构图生成




✨ 技术路线图工作台:选择路径类型、输入来源、模型配置和可视化模板

✨ 生成具有结构化双栏布局的技术路线图




✨ 实验曲线图生成(多种风格)


🎬 Paper2PPT:论文转演示文稿


✨ 端到端 PPT 生成演示

✨ 从论文/文本/主题生成精美的幻灯片集


✨ 在锁定主题的前提下,直接在画布上编辑幻灯片文字

✨ 导出前预览生成的多页幻灯片库


✨ AI 辅助的大纲优化,提供针对性的改写提示

✨ 大纲编辑细化到章节和要点级别




✨ 支持超过 40 张幻灯片的长文档 · 智能表格提取与插入 · 版本历史与迭代式文稿管理

🎬 Paper2Video:PPT 转配音视频



✨ 将 PPT/PDF 转换为带旁白的视频,支持脚本确认、阿里云 TTS 音色,并可下载输出

🖼️ Paper2Poster:论文转海报



PNG 海报结果

PPT 海报结果

✨ 将论文 PDF 转换为学术海报,支持可配置布局、可编辑的海报输出以及一键导出

🔎 Paper2Citation:引用探索器



✨ 搜索作者或论文,查看引用候选、所属机构及下游引用背景

🎨 PPT 智能美化



✨ 基于 AI 的版面优化

✨ 基于 AI 的版面优化与风格迁移

🖼️ PDF2PPT:保留版面的转换



✨ 智能裁剪与版面保留

✨ 图像转 PPT

🚀 快速入门

需求

Python pip

🐳 Docker(推荐)— 部署与更新
# 1. 克隆
git clone https://github.com/OpenDCAI/Paper2Any.git
cd Paper2Any

# 2. 配置环境变量
cp fastapi_app/.env.example fastapi_app/.env
cp frontend-workflow/.env.example frontend-workflow/.env

必需配置:

fastapi_app/.env(后端):

# 内部 API 认证密钥。必须与前端 VITE_API_KEY 匹配。
BACKEND_API_KEY=your-backend-api-key

# 必需:您的 LLM API 地址(请替换为您自己的)
DEFAULT_LLM_API_URL=https://api.openai.com/v1/

# 可选:DrawIO OCR / VLM 服务
PAPER2DRAWIO_OCR_API_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
PAPER2DRAWIO_OCR_API_KEY=your_dashscope_key

# 可选:MinerU 官方远程 API
MINERU_API_BASE_URL=https://mineru.net/api/v4
MINERU_API_KEY=your_mineru_api_key

# 可选:用于 PDF2PPT / Image2PPT / Image2Drawio 的 SAM3 分割服务
# SAM3_SERVER_URLS=http://GPU_MACHINE_IP:8001
# SAM3_SERVER_URLS=http://GPU1:8021,http://GPU2:8022

# 可选:Supabase(无需认证也可使用——核心功能仍可正常运行)
# SUPABASE_URL=https://your-project-id.supabase.co
# SUPABASE_ANON_KEY=your_supabase_anon_key

frontend-workflow/.env(前端):

# 必须与 fastapi_app/.env 中的 BACKEND_API_KEY 一致
VITE_API_KEY=your-backend-api-key

# 必需:UI 下拉菜单中显示的 LLM API 地址(用逗号分隔)
VITE_DEFAULT_LLM_API_URL=https://api.openai.com/v1
VITE_LLM_API_URLS=https://api.openai.com/v1

# 可选:UI 中显示的 Paper2Drawio 模型候选
VITE_PAPER2DRAWIO_MODEL=claude-sonnet-4-5-20250929,gpt-5.2
# 可选:Supabase(与后端保持一致)
# VITE_SUPABASE_URL=https://your-project-id.supabase.co
# VITE_SUPABASE_ANON_KEY=your_supabase_anon_key
# 3. 构建并运行
docker compose up -d --build

打开:

关于 GPU 服务的说明:Docker 只会启动前端和后端,不会包含任何 GPU 模型服务。

  • Paper2PPT、Paper2Figure、知识库等功能仅需 LLM API 即可开箱即用。
  • PDF2PPT、Image2PPT、Image2Drawio 则需要 SAM3 分割服务(需 GPU),该服务需单独部署:
    # 在配备 GPU 的机器上
    python -m dataflow_agent.toolkits.model_servers.sam3_server \
        --port 8001 --checkpoint models/sam3/sam3.pt \
        --bpe models/sam3/bpe_simple_vocab_16e6.txt.gz --device cuda
    
    然后在 fastapi_app/.env 中添加:SAM3_SERVER_URLS=http://GPU_MACHINE_IP:8001

更多详情请参阅下方的“进阶:本地模型服务器负载均衡”部分。

修改与更新:

  • 修改代码或 .env 文件后,请重新构建:docker compose up -d --build
  • 拉取最新代码并重新构建:
    • git pull
    • docker compose up -d --build

常用命令:

  • 查看日志:docker compose logs -f
  • 停止服务:docker compose down

注意事项:

  • 首次构建可能需要较长时间(系统依赖项 + Python 依赖项)。
  • 前端环境变量在构建时已固化(通过 compose 构建参数)。若需更改,需重新构建:docker compose up -d --build
  • 输出文件和模型会挂载到宿主机目录(./outputs./models),以确保数据持久化。

🐧 Linux 安装

我们建议使用 Conda 创建一个隔离的环境(Python 3.11)。

1. 创建环境并安装基础依赖

# 0. 创建并激活 Conda 环境
conda create -n paper2any python=3.11 -y
conda activate paper2any

# 1. 克隆仓库
git clone https://github.com/OpenDCAI/Paper2Any.git
cd Paper2Any

# 2. 安装基础依赖
pip install -r requirements-base.txt

# 3. 以可编辑(开发)模式安装
pip install -e .

2. 安装 Paper2Any 特定依赖(必需)

Paper2Any 涉及 LaTeX 渲染、矢量图形处理以及 PPT/PDF 转换等功能,这些都需要额外的依赖:

# 1. Python 依赖
pip install -r requirements-paper.txt || pip install -r requirements-paper-backup.txt

# 2. LaTeX 引擎(tectonic)——推荐通过 Conda 安装
conda install -c conda-forge tectonic -y

# 3. 解决 doclayout_yolo 依赖冲突(重要)
pip install doclayout_yolo --no-deps

# 4. 系统依赖(以 Ubuntu 为例)
sudo apt-get update
sudo apt-get install -y inkscape libreoffice poppler-utils wkhtmltopdf

3. 环境变量

export DF_API_KEY=your_api_key_here
export DF_API_URL=xxx  # 可选:如果您需要第三方 API 网关
export MINERU_DEVICES="0,1,2,3" # 可选:MinerU 任务的 GPU 资源池

[!TIP] 📚 详细配置指南,请参阅 配置指南,其中提供了关于配置模型、环境变量以及启动服务的分步说明。

4. 配置环境文件(可选)

📝 点击展开:详细的 .env 配置指南

Paper2Any 使用两个 .env 文件进行配置。两者均为可选——您可以在不使用它们的情况下直接运行应用程序,采用默认设置。

步骤 1:复制示例文件
# 复制后端环境文件
cp fastapi_app/.env.example fastapi_app/.env

# 复制前端环境文件
cp frontend-workflow/.env.example frontend-workflow/.env
步骤 2:后端配置(fastapi_app/.env

Supabase(可选)——仅当您需要用户认证和云存储时才需配置:

SUPABASE_URL=https://your-project-id.supabase.co
SUPABASE_ANON_KEY=your_supabase_anon_key

模型配置——自定义不同工作流所使用的模型:

# 默认 LLM API 地址
DEFAULT_LLM_API_URL=http://123.129.219.111:3000/v1/

# 工作流级别的默认值
PAPER2PPT_DEFAULT_MODEL=gpt-5.1
PAPER2PPT_DEFAULT_IMAGE_MODEL=gemini-3-pro-image-preview
PDF2PPT_DEFAULT_MODEL=gpt-4o
# …完整列表请参见 .env.example

服务集成配置——图像/PDF 工作流中使用的外部或本地服务:

# DrawIO OCR / VLM
PAPER2DRAWIO_OCR_API_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
PAPER2DRAWIO_OCR_API_KEY=your_dashscope_key

# MinerU 官方远程 API;如果 MINERU_API_KEY 为空,后端将回退到本地 MINERU_PORT
MINERU_API_BASE_URL=https://mineru.net/api/v4
MINERU_API_KEY=your_mineru_api_key
MINERU_API_MODEL_VERSION=vlm

# SAM3 分割服务,用于 PDF2PPT / Image2PPT / Image2Drawio
# 单个端点:
SAM3_SERVER_URLS=http://127.0.0.1:8001
# 或多个端点以实现负载均衡:
# SAM3_SERVER_URLS=http://127.0.0.1:8021,http://127.0.0.1:8022
步骤 3:前端配置(frontend-workflow/.env

LLM 提供商配置——控制 UI 中的 API 端点下拉菜单:

# UI 中显示的默认 API 地址
VITE_DEFAULT_LLM_API_URL=https://api.apiyi.com/v1

# 下拉菜单中可用的 API URL(逗号分隔)
VITE_LLM_API_URLS=https://api.apiyi.com/v1,http://b.apiyi.com:16888/v1,http://123.129.219.111:3000/v1

修改 VITE_LLM_API_URLS 后会发生什么:

  • 前端会显示一个包含你指定的所有 URL 的 下拉菜单
  • 用户无需手动输入 URL,即可选择不同的 API 端点
  • 适用于在 OpenAI、本地模型或自定义 API 网关之间切换

Supabase(可选) - 如果需要用户认证,请取消注释以下行:

VITE_SUPABASE_URL=https://your-project.supabase.co
VITE_SUPABASE_ANON_KEY=your-anon-key
SUPABASE_SERVICE_ROLE_KEY=your-service-role-key
SUPABASE_JWT_SECRET=your-jwt-secret
不使用 Supabase 运行

如果跳过 Supabase 配置:

  • ✅ 所有核心功能正常运行
  • ✅ CLI 脚本无需任何配置即可运行
  • ❌ 无用户认证和配额限制
  • ❌ 无云端文件存储

[!NOTE] 快速入门: 您可以完全跳过 .env 配置,直接通过 --api-key 参数使用 CLI 脚本。请参阅下方的 CLI 脚本 部分。


高级配置:本地模型服务负载均衡

如果您在高并发的本地环境中部署,可以使用 script/start_model_servers.sh 来启动本地模型服务集群(MinerU / SAM / OCR)。

脚本位置:/DataFlow-Agent/script/start_model_servers.sh

主要配置项:

  • MinerU(PDF 解析)

    • MINERU_MODEL_PATH:模型路径(默认为 models/MinerU2.5-2509-1.2B
    • MINERU_GPU_UTIL:GPU 内存利用率(默认 0.85)
    • 实例配置:默认情况下,每块已配置的 GPU 上启动一个实例,端口为 8011-8013。
    • 负载均衡器:端口 8010,自动分发请求。
  • SAM3(Segment Anything Model 3)

    • 实例配置:默认情况下,每块已配置的 GPU 上启动一个实例,端口为 8021-8022。
    • 模型资源:默认路径为 ./models/sam3/sam3.pt./models/sam3/bpe_simple_vocab_16e6.txt.gz
    • 负载均衡器:端口 8020。
  • OCR(PaddleOCR)

    • 配置:在 CPU 上运行,使用 uvicorn 的工作进程机制(默认 4 个工作进程)。
    • 端口:8003。

在使用前,请根据您实际的 GPU 数量和内存情况,修改脚本中的 gpu_id 和实例数量。

若要在单 GPU 上进行本地一键开发测试(SAM3 + 后端 + 前端),请运行:

bash script/start_local_sam3_dev.sh

🪟 Windows 安装

[!NOTE] 目前我们建议在 Linux / WSL 上尝试 Paper2Any。如果您需要在原生 Windows 上部署,请按照以下步骤操作。

1. 创建环境并安装基础依赖

# 0. 创建并激活 conda 环境
conda create -n paper2any python=3.12 -y
conda activate paper2any

# 1. 克隆仓库
git clone https://github.com/OpenDCAI/Paper2Any.git
cd Paper2Any

# 2. 安装基础依赖
pip install -r requirements-win-base.txt

# 3. 以可编辑(开发)模式安装
pip install -e .

2. 安装 Paper2Any 特定依赖(推荐)

Paper2Any 涉及 LaTeX 渲染和矢量图形处理,需要额外的依赖(见 requirements-paper.txt):

# Python 依赖
pip install -r requirements-paper.txt

# tectonic:LaTeX 引擎(推荐通过 conda 安装)
conda install -c conda-forge tectonic -y

🎨 安装 Inkscape(SVG/矢量图形处理 | 推荐/必需)

  1. 下载并安装(Windows 64 位 MSI):Inkscape 下载
  2. 将 Inkscape 可执行文件目录添加到系统环境变量 Path 中(示例):C:\Program Files\Inkscape\bin\

[!TIP] 配置 Path 后,建议重新打开终端(或重启 VS Code / PowerShell),以确保环境变量生效。

⚡ 安装 vLLM 的 Windows 版本(可选 | 用于本地推理加速)

发布页面:vllm-windows releases
推荐版本:0.11.0

pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

[!IMPORTANT] 请确保 .whl 文件与您的当前环境匹配:

  • Python:cp312(Python 3.12)
  • 平台:win_amd64
  • CUDA:cu124(必须与您本地的 CUDA / 驱动程序匹配)

启动应用

Paper2Any - 论文工作流 Web 前端(推荐)

# 配置本地后端运行时(单一可信来源)
# 编辑 deploy/app_config.sh:
#   APP_PORT=8000
#   APP_WORKERS=2

# 启动后端 API
./deploy/start.sh

# 启动前端(新开终端)
cd frontend-workflow
npm install
npm run dev

默认本地地址:

有用的本地部署命令:

  • 启动后端:./deploy/start.sh
  • 停止后端:./deploy/stop.sh
  • 重启后端:./deploy/restart.sh

注意:

  • deploy/start.shdeploy/stop.sh 都会读取 deploy/app_config.sh 中的相同运行时配置。
  • 如果您更改了 APP_PORT,还需同时更新 frontend-workflow/vite.config.ts 中的前端代理目标。

配置前端代理

修改 frontend-workflow/vite.config.ts 中的 server.proxy

export default defineConfig({
  plugins: [react()],
  server: {
    port: 3000,
    open: true,
    allowedHosts: true,
    proxy: {
      '/api': {
        target: 'http://127.0.0.1:8000',  // FastAPI 后端地址
        changeOrigin: true,
      },
      '/outputs': {
        target: 'http://127.0.0.1:8000',
        changeOrigin: true,
      },
    },
  },
})

访问 http://localhost:3000

Windows:加载 MinerU 预训练模型

# 在 PowerShell 中启动
vllm serve opendatalab/MinerU2.5-2509-1.2B `
  --host 127.0.0.1 `
  --port 8010 `
  --logits-processors mineru_vl_utils:MinerULogitsProcessor `
  --gpu-memory-utilization 0.6 `
  --trust-remote-code `
  --enforce-eager

启动应用

🎨 Web 前端(推荐)

# 如果想更改本地端口/工作进程数,请先配置 deploy/app_config.sh

# 启动后端 API
./deploy/start.sh

# 启动前端(新开终端)
cd frontend-workflow
npm install
npm run dev

访问 http://localhost:3000。默认情况下,后端健康检查地址为 http://127.0.0.1:8000/health


🖥️ 命令行脚本 (CLI)

Paper2Any 提供了独立的命令行脚本,支持通过命令行参数直接执行工作流,无需使用 Web 前端或后端。

环境变量

可通过环境变量配置 API 访问(可选):

export DF_API_URL=https://api.openai.com/v1  # LLM API 地址
export DF_API_KEY=sk-xxx                      # API 密钥
export DF_MODEL=gpt-4o                        # 默认模型

可用的 CLI 脚本

1. Paper2Figure CLI - 生成科学图表(3 种类型)

# 从 PDF 文件生成模型架构图
python script/run_paper2figure_cli.py \
  --input paper.pdf \
  --graph-type model_arch \
  --api-key sk-xxx

# 从文本生成技术路线图
python script/run_paper2figure_cli.py \
  --input "带有注意力机制的 Transformer 架构" \
  --input-type TEXT \
  --graph-type tech_route

# 生成实验数据可视化图表
python script/run_paper2figure_cli.py \
  --input paper.pdf \
  --graph-type exp_data

图表类型: model_arch(模型架构)、tech_route(技术路线图)、exp_data(实验图表)

2. Paper2PPT CLI - 将论文转换为 PPT 演示文稿

# 基本用法
python script/run_paper2ppt_cli.py \
  --input paper.pdf \
  --api-key sk-xxx \
  --page-count 15

# 自定义风格
python script/run_paper2ppt_cli.py \
  --input paper.pdf \
  --style "学术风格;英语;现代设计" \
  --language en

3. PDF2PPT CLI - 一键将 PDF 转换为可编辑的 PPT

# 基本转换(无 AI 增强)
python script/run_pdf2ppt_cli.py --input slides.pdf

# 带 AI 增强
python script/run_pdf2ppt_cli.py \
  --input slides.pdf \
  --use-ai-edit \
  --api-key sk-xxx

4. Image2PPT CLI - 将图片转换为可编辑的 PPT

# 基本转换
python script/run_image2ppt_cli.py --input screenshot.png

# 带 AI 增强
python script/run_image2ppt_cli.py \
  --input diagram.jpg \
  --use-ai-edit \
  --api-key sk-xxx

5. PPT2Polish CLI - 美化现有 PPT 文件

# 基本美化
python script/run_ppt2polish_cli.py \
  --input old_presentation.pptx \
  --style "学术风格,简洁优雅" \
  --api-key sk-xxx

# 使用参考图片保持风格一致
python script/run_ppt2polish_cli.py \
  --input old_presentation.pptx \
  --style "现代简约风格" \
  --ref-img reference_style.png \
  --api-key sk-xxx

[!NOTE] PPT2Polish 的系统要求:

  • LibreOffice:sudo apt-get install libreoffice(Ubuntu/Debian)
  • pdf2image:pip install pdf2image
  • poppler-utils:sudo apt-get install poppler-utils

共享选项

所有 CLI 脚本均支持以下通用选项:

  • --api-url URL - LLM API 地址(默认值来自 DF_API_URL 环境变量)
  • --api-key KEY - API 密钥(默认值来自 DF_API_KEY 环境变量)
  • --model NAME - 文本模型名称(默认值因脚本而异)
  • --output-dir DIR - 自定义输出目录(默认:outputs/cli/{脚本名}/{时间戳}
  • --help - 显示详细帮助信息

如需查看完整的参数说明,可在任意脚本后添加 --help 参数:

python script/run_paper2figure_cli.py --help

📂 项目结构

Paper2Any/
├── dataflow_agent/          # 核心代码库
│   ├── agentroles/         # 代理定义
│   │   └── paper2any_agents/ # Paper2Any 特定代理
│   ├── workflow/           # 工作流定义
│   ├── promptstemplates/   # 提示模板
│   └── toolkits/           # 工具包(绘图、PPT 生成等)
├── fastapi_app/            # 后端 API 服务
├── frontend-workflow/      # 前端 Web 界面
├── static/                 # 静态资源
├── script/                 # 脚本工具
└── tests/                  # 测试用例

🗺️ 路线图

功能 状态 子功能
📊 Paper2Figure
可编辑的科学图表
85% 完成
完成
完成
完成
🧩 Paper2Diagram
Drawio 图表
80% 完成
完成
完成
完成
🎬 Paper2PPT
可编辑的幻灯片演示文稿
70% 完成
完成
完成
完成
完成
完成
🖼️ PDF2PPT
保持版面的转换
90% 完成
完成
完成
🖼️ Image2PPT
图片转幻灯片
85% 完成
完成
🎨 PPTPolish
智能美化
60% 完成
进行中
进行中
📚 Knowledge Base
知识库工作流
75% 完成
完成
完成
🎬 Paper2Video
视频脚本生成
40% 进行中
进行中

🤝 贡献

我们欢迎任何形式的贡献!

Issues Discussions PR


📄 许可证

本项目采用 Apache License 2.0 许可。


如果这个项目对您有帮助,请给我们一颗⭐️星!

GitHub stars GitHub forks


DataFlow-Agent 微信社区
扫描加入社区微信群

❤️ 由 OpenDCAI 团队制作

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架