paperbanana

1.3k 190 简单 1 次阅读今天MIT图像语言模型开发框架其他Agent

AI 解读由 AI 自动生成，仅供参考

PaperBanana 是一款专为 AI 科研人员打造的开源工具，旨在将文字描述自动转化为出版级的学术图表、示意图及研究视觉素材。它有效解决了科研人员在论文写作或制作演示文稿时，手动绘制高质量专业图表耗时费力且门槛较高的痛点，让研究者能更专注于核心逻辑而非绘图细节。

该工具特别适合需要频繁产出学术图示的研究人员、开发者以及希望自动化工作流的实验室团队使用。其核心技术亮点在于采用了“两阶段多智能体”协作框架，能够通过迭代优化不断打磨生成结果，确保输出质量。PaperBanana 不仅支持 OpenAI、Azure 和 Google Gemini 等多种主流大模型后端，还具备独特的批量生成能力，可一次性处理多个图表需求。此外，它甚至能直接读取 PDF 论文作为上下文输入，并提供了本地 Web 界面（PaperBanana Studio）和命令行工具，方便用户进行可视化操作与集成开发。作为一个社区驱动的非官方实现，它以灵活、高效的方式降低了学术可视化的技术门槛。

使用场景

一位计算机视觉领域的博士生正在撰写关于新型注意力机制的论文，急需将复杂的算法流程转化为符合顶会出版标准的架构图。

没有 paperbanana 时

绘图耗时极长：需要手动在 PowerPoint 或 Visio 中反复拖拽对齐框图，仅调整箭头走向和模块间距就耗费数小时。
风格难以统一：手工绘制的图表往往与论文整体排版风格割裂，字体大小、配色方案不一致，显得不够专业。
修改成本高昂：一旦模型结构发生微调（如增加一个分支），整个图纸需要重新绘制，无法快速迭代验证想法。
缺乏语义理解：绘图工具无法理解“残差连接”或“多头注意力”等学术概念，完全依赖人工还原逻辑，易出现表述错误。

使用 paperbanana 后

一键生成初稿：只需输入“包含三个编码层和交叉注意力模块的 Transformer 变体”等自然语言描述，paperbanana 即可自动生成布局合理的矢量图。
自动适配学术规范：生成的图表自动采用顶会常见的配色与字体标准，无需后期手动美化，直接达到出版级质量。
智能迭代优化：若需调整结构，仅需补充反馈指令（如“将第二层改为并行结构”），paperbanana 的多智能体流水线会自动重绘并保留其他部分。
深度理解上下文：支持直接上传论文 PDF 作为背景参考，paperbanana 能精准提取方法论细节，确保图示逻辑与文字描述严格一致。

paperbanana 将研究人员从繁琐的绘图工作中解放出来，让科学家专注于核心创新而非图形编辑，显著缩短了从想法到论文发表的周期。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该工具主要依赖外部 API（OpenAI、Azure OpenAI 或 Google Gemini），无需本地部署大型模型或 GPU。需配置相应的 API Key。支持通过 CLI、Python API 或本地 Gradio Web UI (PaperBanana Studio) 运行。若需处理 PDF 文件，需安装额外依赖 `paperbanana[pdf]`。

python3.10+

Pydantic v2

Typer

Gradio (可选，用于 Studio)

PyMuPDF (可选，用于 PDF 输入)

快速开始

PaperBanana

面向AI科学家的自动化学术插图工具

免责声明: 本项目是Dawei Zhu、Rui Meng、Yale Song、Xiyu Wei、Sujian Li、Tomas Pfister和Jinsung Yoon所著论文《PaperBanana: 面向AI科学家的自动化学术插图》（arXiv:2601.23265）的非官方、社区驱动的开源实现。本项目与原作者或Google Research均无关联，亦未获得其认可。该实现基于公开论文，可能与原始系统存在差异。

一个基于智能体框架的工具，可根据文本描述生成出版级质量的学术图表和统计图形。支持OpenAI（GPT-5.2 + GPT-Image-1.5）、Azure OpenAI / Foundry以及Google Gemini等服务提供商。

两阶段多智能体流水线，具备迭代优化功能
支持多种视觉语言模型及图像生成服务提供商（OpenAI、Azure、Gemini）
输入优化层，提升生成质量
自动精修模式及用户反馈下的运行续接
提供命令行界面、Python API以及MCP服务器，便于集成到IDE中
可通过清单文件（YAML/JSON）进行批量生成，一次运行即可完成多个图表的制作
支持PDF输入以提供方法论背景信息（可选paperbanana[pdf] / PyMuPDF），并可逐页选择
PaperBanana Studio — 本地Gradio Web界面（paperbanana studio），用于图表、绘图、评估、批量处理及运行结果浏览
支持Claude Code技能，可用于/generate-diagram、/generate-plot和/evaluate-diagram等指令

PaperBanana以论文为输入，输出图表

快速入门

前置条件

Python 3.10+
OpenAI API密钥（platform.openai.com）或Azure OpenAI / Foundry端点
或Google Gemini API密钥（免费，可在Google AI Studio获取）

第一步：安装

pip install paperbanana

若需开发，则可从源码安装：

git clone https://github.com/llmsresearch/paperbanana.git
cd paperbanana
pip install -e ".[dev,openai,google]"

第二步：获取API密钥

cp .env.example .env
# 编辑.env文件并添加您的API密钥：
#   OPENAI_API_KEY=your-key-here
#   GOOGLE_API_KEY=your-key-here
#
# 对于Azure OpenAI / Foundry：
#   OPENAI_BASE_URL=https://<resource>.openai.azure.com/openai/v1
#
# 可选的Gemini自定义配置：
#   GOOGLE_BASE_URL=https://your-gemini-proxy.example.com
#   GOOGLE_VLM_MODEL=gemini-2.0-flash
#   GOOGLE_IMAGE_MODEL=gemini-3-pro-image-preview

您也可以使用Gemini的设置向导：

paperbanana setup

第三步：生成图表

paperbanana generate \
  --input examples/sample_inputs/transformer_method.txt \
  --caption "我们的稀疏路由编码器-解码器架构概览"

结合输入优化与自动精修功能：

paperbanana generate \
  --input my_method.txt \
  --caption "我们的编码器-解码器框架概览" \
  --optimize --auto

生成结果将保存至outputs/run_<timestamp>/final_output.png，同时包含所有中间迭代步骤及元数据。

PaperBanana Studio（本地Web界面）

安装可选的Gradio依赖后，启动应用：

pip install 'paperbanana[studio]'
paperbanana studio

打开终端中显示的URL（默认为http://127.0.0.1:7860/）。Studio提供了与命令行界面相同的流程：方法论图表、统计图表、对比评估、继续之前的运行、批量清单处理，以及用于浏览run_*和batch_*输出文件夹的简单浏览器。可根据需要使用--host、--port、--config和--output-dir等参数。

工作原理

PaperBanana 实现了一个包含最多 7 个专业代理的多代理流水线：

阶段 0 -- 输入优化（可选，--optimize）：

输入优化器 并行调用两个视觉语言模型（VLM）：
- 上下文增强器 将原始方法文本结构化为适合绘制图表的格式（组件、流程、分组、输入输出）
- 标题精炼器 将模糊的标题转化为精确的可视化规范

阶段 1 -- 线性规划：

检索器 从一个精选的 13 张方法论图表集合中选择最相关的参考示例，这些图表涵盖代理/推理、视觉/感知、生成式/学习以及科学/应用等领域。
规划器 基于检索到的示例进行上下文学习，生成目标图表的详细文本描述。
风格设计师 使用 NeurIPS 风格指南（配色方案、布局、排版）对描述进行润色，以提升视觉美感。

阶段 2 -- 迭代优化：

可视化器 将描述渲染成图像。
评论员 根据源上下文评估生成的图像，并提供修改后的描述以解决任何问题。
上述第 4 至第 5 步会重复执行固定次数（默认 3 次），或直到评论员满意为止（--auto）。

服务提供商

PaperBanana 支持多种视觉语言模型和图像生成服务提供商：

组件	服务提供商	模型	备注
VLM（规划、评论）	OpenAI	`gpt-5.2`	默认
图像生成	OpenAI	`gpt-image-1.5`	默认
VLM	Google Gemini	`gemini-2.0-flash`	免费层级
图像生成	Google Gemini	`gemini-3-pro-image-preview`	免费层级
VLM / 图像	OpenRouter	任何支持的模型	灵活路由

Azure OpenAI 和 Foundry 的端点会自动检测——只需设置 OPENAI_BASE_URL 为您的端点即可。同时，也支持与 Gemini 兼容的网关——在需要时设置 GOOGLE_BASE_URL。

CLI 参考

`paperbanana generate` -- 方法论图表

# 基本生成
paperbanana generate \
  --input method.txt \
  --caption "我们的框架概述"

# 带有输入优化和自动优化
paperbanana generate \
  --input method.txt \
  --caption "我们的框架概述" \
  --optimize --auto

# 根据用户反馈继续最近一次运行
paperbanana generate --continue \
  --feedback "让箭头更粗，颜色更鲜明"

# 继续特定运行
paperbanana generate --continue-run run_20260218_125448_e7b876 \
  --iterations 3

# PDF 作为输入（需安装 PyMuPDF：pip install 'paperbanana[pdf]’）
paperbanana generate \
  --input paper.pdf \
  --caption "我们方法的概述" \
  --pdf-pages "3-8"

标志	缩写	描述
`--input`	`-i`	方法文本文件或 PDF 的路径（新运行必需）
`--caption`	`-c`	图表标题/沟通意图（新运行必需）
`--output`	`-o`	输出图像路径（默认：自动生成在 `outputs/` 目录下）
`--iterations`	`-n`	可视化器-评论员优化轮次（默认：3）
`--auto`		循环直至评论员满意（并设有 `--max-iterations` 安全上限）
`--max-iterations`		`--auto` 模式的安全上限（默认：30）
`--optimize`		使用并行上下文增强和标题精炼预处理输入
`--continue`		从 `outputs/` 中的最新运行继续
`--continue-run`		从特定运行 ID 继续
`--feedback`		继续运行时提供给评论员的用户反馈
`--pdf-pages`		仅限 PDF 输入：基于 1 的页码（如 `1-5`、`2,4,6-8`；默认：全部）
`--vlm-provider`		VLM 服务提供商名称（默认：`openai`）
`--vlm-model`		VLM 模型名称（默认：`gpt-5.2`）
`--image-provider`		图像生成服务提供商（默认：`openai_imagen`）
`--image-model`		图像生成模型（默认：`gpt-image-1.5`）
`--format`	`-f`	输出格式：`png`、`jpeg` 或 `webp`（默认：`png`）
`--config`		YAML 配置文件路径（参见 `configs/config.yaml`）
`--verbose`	`-v`	显示详细的代理进度和计时信息
`--progress-json`		在生成过程中将进度事件以 JSON 格式输出到标准输出

`paperbanana plot` -- 统计图表

paperbanana plot \
  --data results.csv \
  --intent "比较各基准上模型准确率的柱状图"

标志	缩写	描述
`--data`	`-d`	数据文件路径，CSV 或 JSON（必需）
`--intent`		图表的沟通意图（必需）
`--output`	`-o`	输出图像路径
`--iterations`	`-n`	优化迭代次数（默认：3）

`paperbanana batch` -- 批量生成

从单个清单文件（YAML 或 JSON）中生成多个方法论图表。每个条目都会运行完整的流水线；输出会被写入 outputs/batch_<id>/run_<id>/ 目录下，并且会生成一个 batch_report.json 来汇总所有运行结果。

paperbanana batch --manifest examples/batch_manifest.yaml --optimize

清单格式（YAML 或 JSON，包含一个 items 列表）：

items:
  - input: path/to/method1.txt
    caption: "我们的编码解码器概述"
    id: fig1
  - input: method2.txt
    caption: "训练流程"
    id: fig2
  - input: paper.pdf
    caption: "系统概述"
    id: fig3
    pdf_pages: "4-9" # 可选；仅适用于 PDF 输入

清单中的路径是相对于清单文件所在目录解析的。

从现有批量运行生成人类可读报告（Markdown 或 HTML）：

paperbanana batch-report --batch-dir outputs/batch_20250109_123456_abc --format markdown
# 或者通过批量 ID（在默认输出目录下）
paperbanana batch-report --batch-id batch_20250109_123456_abc --format html --output report.html

标志	缩写	描述
`--manifest`	`-m`	清单文件路径（必需）
`--output-dir`	`-o`	批量运行的父目录（默认：outputs）
`--config`		配置 YAML 文件路径
`--iterations`	`-n`	每个条目的优化迭代次数
`--optimize`		对每个条目的输入进行预处理
`--auto`		循环直至每个条目都得到评论员的满意
`--format`	`-f`	输出图像格式（png、jpeg、webp）
`--auto-download-data`		如有需要，下载扩展的参考数据集

`paperbanana evaluate` -- 质量评估

使用 VLM 作为评判者，对生成的图表与人工参考图进行对比评估：

paperbanana evaluate \
  --generated diagram.png \
  --reference human_diagram.png \
  --context method.txt \
  --caption "我们框架的概述"

标志	简写	描述
`--generated`	`-g`	生成图像的路径（必填）
`--reference`	`-r`	人工参考图像的路径（必填）
`--context`		源上下文文本文件或 PDF 的路径（必填）
`--caption`	`-c`	图表标题（必填）
`--pdf-pages`		仅适用于 PDF 上下文：基于 1 的页码选择（默认：全部）

在四个维度上打分（按照论文中的层次化聚合方式）：

主要：忠实度、可读性
次要：简洁性、美观性

`paperbanana studio` -- 本地 Web UI

需要运行 pip install 'paperbanana[studio]'（Gradio）。

paperbanana studio
paperbanana studio --port 8080 --output-dir ./my_outputs

标志	描述
`--host`	绑定地址（默认 `127.0.0.1`）
`--port`	端口（默认 `7860`）
`--share`	创建一个临时的公开 Gradio 链接（请勿用于敏感数据）
`--config`	YAML 配置文件的路径
`--output-dir` / `-o`	运行的默认输出目录
`--root-path`	在反向代理后的 URL 子路径

`paperbanana setup` -- 首次配置

paperbanana setup

这是一个交互式向导，首先会询问是否使用官方 Gemini API。如果选择官方 API，则按照默认的 AI Studio 密钥流程进行；如果不选择，则会要求提供自定义的兼容 Gemini 的 URL 和 API 密钥。

Python API

import asyncio
from paperbanana import PaperBananaPipeline, GenerationInput, DiagramType
from paperbanana.core.config import Settings

settings = Settings(
    vlm_provider="openai",
    vlm_model="gpt-5.2",
    image_provider="openai_imagen",
    image_model="gpt-image-1.5",
    optimize_inputs=True,   # 启用输入优化
    auto_refine=True,       # 循环直到批评家满意
)

pipeline = PaperBananaPipeline(settings=settings)

result = asyncio.run(pipeline.generate(
    GenerationInput(
        source_context="我们的框架包括...",
        communicative_intent="对所提方法的概述。",
        diagram_type=DiagramType.METHODOLOGY,
    )
))

print(f"输出: {result.image_path}")

进度回调： generate() 和 continue_run() 接受一个可选的 progress_callback 参数。流水线会在每个步骤（优化器、检索器、规划器、风格师、可视化器、批评家）中调用它，并传递 PipelineProgressEvent 对象（阶段、消息、秒数、迭代次数、额外信息），以便您可以在 UI 中显示进度或记录时间，而无需修改各个代理。

要继续之前的运行：

from paperbanana.core.resume import load_resume_state

state = load_resume_state("outputs", "run_20260218_125448_e7b876")
result = asyncio.run(pipeline.continue_run(
    resume_state=state,
    additional_iterations=3,
    user_feedback="让编码器模块更突出",
))

完整的工作示例请参见 examples/generate_diagram.py 和 examples/generate_plot.py。

MCP 服务器

PaperBanana 包含一个 MCP 服务器，可用于 Claude Code、Cursor 或任何兼容 MCP 的客户端。通过 uvx 使用它而无需本地克隆时，添加以下配置：

{
  "mcpServers": {
    "paperbanana": {
      "command": "uvx",
      "args": ["--from", "paperbanana[mcp]", "paperbanana-mcp"],
      "env": { "GOOGLE_API_KEY": "your-google-api-key" }
    }
  }
}

暴露了三个 MCP 工具：generate_diagram、generate_plot 和 evaluate_diagram。

该仓库还附带 3 个 Claude Code 技能：

/generate-diagram <file> [caption] - 从文本文件生成方法学图
/generate-plot <data-file> [intent] - 从 CSV/JSON 数据生成统计图
/evaluate-diagram <generated> <reference> - 对比评估生成图与人工参考图

完整的设置详情（Claude Code、Cursor、本地开发）请参阅 mcp_server/README.md。

配置

默认设置位于 configs/config.yaml 中。可通过 CLI 标志或自定义 YAML 文件进行覆盖：

paperbanana generate \
  --input method.txt \
  --caption "概述" \
  --config my_config.yaml

关键设置如下：

vlm:
  provider: openai           # openai、gemini 或 openrouter
  model: gpt-5.2

image:
  provider: openai_imagen    # openai_imagen、google_imagen 或 openrouter_imagen
  model: gpt-image-1.5

pipeline:
  num_retrieval_examples: 10
  refinement_iterations: 3
  # auto_refine: true        # 循环直到批评家满意
  # max_iterations: 30       # 自动精炼模式的安全上限
  # optimize_inputs: true    # 预处理输入以提高生成质量
  output_resolution: "2k"

reference:
  path: data/reference_sets

output:
  dir: outputs
  save_iterations: true
  save_metadata: true

环境变量（.env）：

# OpenAI（默认）
OPENAI_API_KEY=your-key
OPENAI_BASE_URL=https://api.openai.com/v1    # 或 Azure 端点
OPENAI_VLM_MODEL=gpt-5.2                      # 覆盖模型
OPENAI_IMAGE_MODEL=gpt-image-1.5              # 覆盖模型

# Google Gemini（替代方案，免费）
GOOGLE_API_KEY=your-key
GOOGLE_BASE_URL=                            # 可选的自定义兼容 Gemini 的端点
GOOGLE_VLM_MODEL=gemini-2.0-flash          # 覆盖 Gemini VLM 模型
GOOGLE_IMAGE_MODEL=gemini-3-pro-image-preview  # 覆盖 Gemini 图像模型

项目结构

paperbanana/
├── paperbanana/
│   ├── core/          # 管道编排、类型定义、配置、恢复机制、工具函数
│   ├── agents/        # 优化器、检索器、规划器、风格化器、可视化器、评价器
│   ├── providers/     # 多模态大模型及图像生成提供商实现
│   │   ├── vlm/       # OpenAI、Gemini、OpenRouter 的多模态大模型提供商
│   │   └── image_gen/ # OpenAI、Gemini、OpenRouter 的图像生成提供商
│   ├── reference/     # 参考集管理（13个精选示例）
│   ├── guidelines/    # 风格指南加载器
│   └── evaluation/    # 基于多模态大模型的评价系统
├── configs/           # YAML 配置文件
├── prompts/           # 所有智能体及评价模块的提示模板
│   ├── diagram/       # 上下文增强器、标题优化器、检索器、规划器、风格化器、可视化器、评价器
│   ├── plot/          # 针对不同情节的提示变体
│   └── evaluation/    # 忠实性、简洁性、可读性、美学
├── data/
│   ├── reference_sets/  # 13张经过验证的方法学示意图
│   └── guidelines/      # NeurIPS 风格的美学指南
├── examples/          # 可运行的示例脚本及输入样本
├── scripts/           # 数据整理与构建脚本
├── tests/             # 测试套件
├── mcp_server/        # 用于 IDE 集成的 MCP 服务器
└── .claude/skills/    # Claude Code 技能（生成示意图、生成情节图、评估示意图）

开发

# 安装并包含开发依赖
pip install -e ".[dev,openai,google]"

# 运行测试
pytest tests/ -v

# 代码检查
ruff check paperbanana/ mcp_server/ tests/ scripts/

# 代码格式化
ruff format paperbanana/ mcp_server/ tests/ scripts/

引用

这是一个非官方的实现。如果您使用本项目，请引用原始论文：

@article{zhu2026paperbanana,
  title={PaperBanana: Automating Academic Illustration for AI Scientists},
  author={Zhu, Dawei and Meng, Rui and Song, Yale and Wei, Xiyu
          and Li, Sujian and Pfister, Tomas and Yoon, Jinsung},
  journal={arXiv preprint arXiv:2601.23265},
  year={2026}
}

原始论文: https://arxiv.org/abs/2601.23265

免责声明

本项目是基于公开论文的独立开源重实现。它与原作者、Google Research 或北京大学均无任何关联、背书或联系。该实现可能与论文中描述的原始系统存在差异。请用户自行判断并谨慎使用。

许可证

MIT

PaperBanana 快速上手指南

PaperBanana 是一个专为 AI 科研人员设计的自动化学术插图生成工具。它能够通过多智能体协作流程，将文本描述或论文片段转化为出版级的方法论图表和统计图。

环境准备

在开始之前，请确保满足以下系统要求和前置条件：

操作系统：Linux, macOS 或 Windows
Python 版本：3.10 或更高版本
API 密钥（任选其一）：
- OpenAI: 需要 OPENAI_API_KEY (支持 GPT-5.2 + GPT-Image-1.5)
- Google Gemini: 需要 GOOGLE_API_KEY (免费层级可用)
- Azure OpenAI / Foundry: 需要对应的 Endpoint 和 Key
可选依赖：若需处理 PDF 输入，需安装 PyMuPDF。

安装步骤

1. 基础安装

通过 pip 直接安装最新版本：

pip install paperbanana

2. 开发版安装（可选）

如需从源码安装并包含所有开发依赖及提供商支持：

git clone https://github.com/llmsresearch/paperbanana.git
cd paperbanana
pip install -e ".[dev,openai,google]"

3. 配置 API 密钥

复制环境变量模板文件并编辑：

cp .env.example .env

使用文本编辑器打开 .env 文件，填入你的 API 密钥：

# OpenAI 配置
OPENAI_API_KEY=your-key-here

# Google Gemini 配置
GOOGLE_API_KEY=your-key-here

# Azure OpenAI 配置 (如有需要)
OPENAI_BASE_URL=https://<resource>.openai.azure.com/openai/v1

提示：如果你主要使用 Gemini，也可以运行交互式设置向导：
paperbanana setup

基本使用

生成方法论图表 (Methodology Diagrams)

这是最常用的功能，将文本描述转换为架构图。

最简单的用法： 准备一个包含方法描述的文本文件（例如 method.txt），然后运行：

paperbanana generate \
  --input method.txt \
  --caption "Overview of our encoder-decoder architecture"

进阶用法（带输入优化与自动修正）： 启用 --optimize 对输入进行预处理，并使用 --auto 让系统自动迭代直到批评家（Critic）满意：

paperbanana generate \
  --input method.txt \
  --caption "Overview of our framework" \
  --optimize --auto

生成的图片将保存在 outputs/run_<timestamp>/final_output.png。

生成统计图表 (Statistical Plots)

基于数据文件自动生成可视化图表：

paperbanana plot \
  --data results.csv \
  --intent "Bar chart comparing model accuracy across benchmarks"

启动本地 Web 界面 (PaperBanana Studio)

如果你更喜欢图形化界面操作，可以安装并启动 Studio：

pip install 'paperbanana[studio]'
paperbanana studio

启动后，在浏览器中访问终端显示的地址（默认为 http://127.0.0.1:7860/），即可通过网页进行图表生成、批量任务和结果浏览。

版本历史

v0.1.22026/02/13

v0.1.12026/02/05

v0.1.02026/02/05

常见问题

MCP 用户如何下载扩展的参考数据集（100+ 示例）？

普通命令行用户如何管理和下载参考数据？

如何为不同的学术会议（如 ICML, ACL）生成符合其风格的图表？

如何查看图表生成的详细耗时（包括各 Agent 和迭代的时间）？

如何对比不同 Prompt 版本的效果以优化 Planner 和 Critic Agent？

基准测试（Benchmark）的并发设置为什么没有生效？

如何添加对 Amazon Bedrock 模型的支持？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 paperbanana 时

使用 paperbanana 后

运行环境要求

快速开始

PaperBanana

快速入门

前置条件

第一步：安装

第二步：获取API密钥

第三步：生成图表

PaperBanana Studio（本地Web界面）

工作原理

服务提供商

CLI 参考

paperbanana generate -- 方法论图表

paperbanana plot -- 统计图表

paperbanana batch -- 批量生成

paperbanana evaluate -- 质量评估

paperbanana studio -- 本地 Web UI

paperbanana setup -- 首次配置

Python API

MCP 服务器

配置

项目结构

开发

引用

免责声明

许可证

PaperBanana 快速上手指南

环境准备

安装步骤

1. 基础安装

2. 开发版安装（可选）

3. 配置 API 密钥

基本使用

生成方法论图表 (Methodology Diagrams)

生成统计图表 (Statistical Plots)

启动本地 Web 界面 (PaperBanana Studio)

版本历史

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow

`paperbanana generate` -- 方法论图表

`paperbanana plot` -- 统计图表

`paperbanana batch` -- 批量生成

`paperbanana evaluate` -- 质量评估

`paperbanana studio` -- 本地 Web UI

`paperbanana setup` -- 首次配置