MetaScreener

1.3k 48 简单 1 次阅读 1周前Apache-2.0语言模型插件开发框架

AI 解读由 AI 自动生成，仅供参考

MetaScreener 是一款专为系统综述研究设计的开源 AI 助手，旨在自动化处理文献筛选中繁琐的摘要与全文审查工作。在传统研究中，研究人员往往需要人工阅读成千上万篇文献的标题和摘要，耗时且容易疲劳出错。MetaScreener 通过并行调用多个开源大语言模型（如 DeepSeek、Qwen、Llama 等），对上传的文献数据进行集体“投票”，从而高效判断每篇文献是否符合纳入标准。

该工具特别适合从事医学、社会科学等领域系统综述的研究人员及学术团队使用。其核心亮点在于独特的“多模型集成”架构与“分层共识网络”：它不依赖单一模型的判断，而是结合校准后的置信度评分，将高置信度的文献自动归类，仅将不确定的案例标记出来供人工复核。这种机制不仅大幅降低了漏检风险，还通过主动学习功能，能根据用户的反馈实时优化模型权重。此外，MetaScreener 支持完全可复现的决策流程，确保每一步筛选都有据可查，让科研工作者能以极低的成本实现透明、高效且可靠的文献初筛。

使用场景

某高校公共卫生团队正在开展一项关于“间歇性禁食对 2 型糖尿病影响”的系统评价，需从数据库导出的 3,500 篇文献中筛选出符合 PICO 标准的研究。

没有 MetaScreener 时

人力消耗巨大：两名研究员需全职工作两周，逐篇阅读标题和摘要，极易因疲劳产生漏判或误判。
标准执行不一：不同成员对“随机对照试验”等纳入标准的理解存在细微偏差，导致初筛结果一致性低，后续需反复校准。
黑盒决策难追溯：若使用单一 AI 辅助，无法得知模型为何排除某篇文献，缺乏不确定性量化，不敢直接采信结果。
异常案例处理僵化：工具要么全自动化（风险高），要么全人工（效率低），缺乏将“模棱两可”案例自动路由给人工复审的机制。

使用 MetaScreener 后

效率提升十倍：MetaScreener 并行调用 DeepSeek、Qwen 等多个开源模型，仅用数小时即可完成初筛，将高置信度文献自动归类，人工只需复核约 15% 的不确定案例。
多模型共识保准：通过层级共识网络（HCN）让多个模型对 PICO 各要素独立投票，消除了单模型偏见，确保纳入排除决定基于集体智慧。
决策透明可解释：系统为每篇文献提供校准后的置信度分数及不确定性的量化指标，研究员可清晰看到哪些文章因“干预措施描述模糊”被标记复审。
动态人机协作：MetaScreener 自动将 Tier 3 类疑难文献推送给人工，并将专家的反馈实时用于调整模型权重，越用越精准。

MetaScreener 通过多模型集成与校准置信度机制，将系统评价中最耗时的筛选环节转化为高效、透明且可信赖的人机协作流程。

运行环境要求

操作系统

未说明

GPU

不需要本地 GPU（通过 API 调用云端 LLM）

内存

未说明

依赖

notes该工具基于云端 API（如 OpenRouter）运行，无需本地部署大模型或显卡。支持 Docker 部署或直接通过 pip 安装。开发模式需安装 Node.js 18+ 和 uv 包管理器。

python3.11+

FastAPI

uvicorn

Pydantic

Node.js 18+

快速开始

面向系统综述筛选的开源多大语言模型集成工具

概述

MetaScreener 利用开源大型语言模型的集成，自动化系统综述的筛选阶段。它不依赖单一模型，而是并行运行多个大语言模型，并通过校准后的置信度流水线聚合其输出——生成透明、可重复且带有不确定性量化结果的决策。

核心理念： 上传您从 PubMed、Scopus 等数据库获取的检索结果，定义您的综述标准（PICO/PEO/SPIDER），MetaScreener 将逐篇读取标题和摘要，并返回包含/排除的决策及置信度分数。对于不确定的情况，则会转交给人工审核。

为什么选择 MetaScreener？

特性	描述
多大语言模型集成	4个以上的开源模型共同投票——不存在单点故障
校准后的置信度	后处理校准（Platt/等温）将原始得分映射为真实概率
分级决策	对高置信度案例自动决策，标记不确定案例供人工复核
要素共识	跨模型对各个要素（P/I/C/O）的一致性评分
主动学习	通过人工反馈循环实时重新校准模型权重
完全可重复性	`temperature=0.0`，`seed=42`，每项决策均有审计追踪
成本效益	使用免费层级的 API 提供商，每篇论文约需 $0.003–0.009

架构

MetaScreener 采用层次化共识网络（HCN）——一个四层筛选流水线：

                        ┌──────────────────────────────────┐
    上传              │         第一层：推理        │
  .ris/.bib ──────────▶ │  4+ 大语言模型通过 API 并行运行  │
  .csv/.xlsx            │  (DeepSeek, Qwen, Llama, Kimi…)  │
                        └──────────────┬───────────────────┘
                                       ▼
                        ┌──────────────────────────────────┐
    PICO/PEO/           │       第二层：规则引擎        │
    SPIDER  ──────────▶ │  硬性规则（自动排除）        │
    标准            │  软性规则（打分惩罚）      │
                        └──────────────┬───────────────────┘
                                       ▼
                        ┌──────────────────────────────────┐
                        │     第三层：CCA + ECS            │
                        │  校准后的置信度聚合               │
                        │  元素共识评分                     │
                        └──────────────┬───────────────────┘
                                       ▼
                        ┌──────────────────────────────────┐
                        │    第四层：决策路由        │
                        │  0级 → 硬性规则排除      │
                        │  1级 → 高置信度自动决定   │
                        │  2级 → 中等置信度自动决定 │
                        │  3级 → 人工审核             │
                        └──────────────────────────────────┘

支持的模型

通过 OpenRouter 支持 15 种开源大语言模型，按能力划分如下：

层级	模型	特性
旗舰级	DeepSeek V3、Qwen 3、Kimi K2.5	准确率最高，医学知识储备雄厚
强效级	Llama 4 Maverick、GLM 5、MiniMax M2.7、Nous Hermes 4、Nvidia Nemotron、Cogito 671B、AI21 Jamba	成本与性能平衡良好
轻量级	Gemma 3 27B、Mistral Small 4、Phi 4	速度快、成本低，适合预算有限的筛选任务

推荐预设：

预设	模型	每篇论文成本	适用场景
平衡型	4个模型	~$0.005	多数综述
精准型	2个思考类 + 2个大型模型	~$0.009	高风险综述
经济型	1个基准模型 + 3个快速模型	~$0.003	大规模筛选

快速入门

前提条件

Python 3.11+
API 密钥，来自 OpenRouter（免费注册，按使用付费）

方案 A：使用 pip 安装

pip install metascreener

然后启动 Web UI：

python -m metascreener
# → 打开 http://localhost:8000

方案 B：使用 Docker（无需 Python）

docker pull chaokunhong/metascreener:latest

docker run -p 8000:8000 \
  -e OPENROUTER_API_KEY="sk-or-v1-your-key-here" \
  chaokunhong/metascreener
# → 打开 http://localhost:8000

方案 C：从源码构建（面向开发者）

需要 uv 和 Node.js 18+。

git clone https://github.com/ChaokunHong/MetaScreener.git
cd MetaScreener

uv sync --extra dev        # 安装 Python 依赖
python run.py              # 启动 FastAPI + Vite 开发服务器
# → 后端：http://localhost:8000
# → 前端：http://localhost:5173

配置

通过以下方法之一设置您的 API 密钥：

Web UI — 进入设置页面并粘贴您的密钥

环境变量：

export OPENROUTER_API_KEY="sk-or-v1-your-key-here"

Web UI 工作流程

MetaScreener 提供现代化的 Web 界面（Vue 3），并配有引导式的分步工作流程：

步骤	页面	功能
0	标准	根据您的研究问题，由 AI 自动生成 PICO/PEO/SPIDER 标准
1	设置	选择模型、调整阈值、配置 API 密钥
2	标题摘要筛选	上传检索结果 → 运行标题摘要筛选 → 审核决策
3	全文筛选	上传 PDF 文件 → 使用智能分块技术进行全文筛选
4	数据提取	从纳入的 PDF 中提取结构化数据（表格、字段）
5	质量评估	偏倚风险评估（RoB 2 / ROBINS-I / QUADAS-2）
6	评估	性能指标、校准诊断及可视化
7	历史记录	包含完整决策来源的会话审计轨迹

筛选流程

上传您的检索导出文件（.ris、.bib、.csv、.xlsx）
定义标准 — 输入您的研究问题，让 AI 生成 PICO 标准，或上传现有标准
运行筛选 — 文献将逐篇处理，并实时显示进度
审核 — 每篇文献会显示：决策、置信度分数、层级、各要素的一致性评分、模型一致性
覆盖 — 如果您不同意某项决策？可直接覆盖，系统会根据您的反馈进行学习
导出 — 将结果下载为 CSV、Excel、JSON 或 RIS 格式

工作原理

第一层 — 并行大语言模型推理

每篇文献会同时发送至 4 个以上的大语言模型。每个模型会返回：

决策（纳入 / 排除 / 不确定）
置信度分数（0–1）
各要素评估（人群、干预、对照、结局）
推理链 解释决策依据

第二层 — 语义规则引擎

硬性规则会自动排除不符合不可协商标准的文献（例如语言错误、应为人类研究却为动物研究）。柔性规则则会对部分匹配的文献给予扣分。

第三层 — 校准置信度聚合（CCA）

原始模型得分会使用 Platt 缩放或等熵回归进行校准，随后通过层级加权融合进行聚合。**要素一致性评分（ECS）**用于衡量各模型在各个要素上的一致程度——如果所有模型都认为“人群”匹配，但在“结局”上存在分歧，这一情况会被精准捕捉。

第四层 — 决策路由

文献会被路由到四个层级之一：

层级	条件	行动
0	违反硬性规则	自动排除
1	高 ECS（≥0.60）且所有模型一致	自动决策
2	中等 ECS（≥0.10）且异议在可接受范围内	以较低置信度自动决策
3	置信度低或意见高度不一致	转交人工审核

支持的文件格式

格式	扩展名	来源
RIS	`.ris`	PubMed、Scopus、Web of Science、Ovid、Embase
BibTeX	`.bib`	Google Scholar、Zotero、Mendeley
CSV	`.csv`	任何电子表格（需包含 `title` 和 `abstract` 列）
Excel	`.xlsx`	任何电子表格（需包含 `title` 和 `abstract` 列）
PDF	`.pdf`	用于全文筛选和数据提取

项目结构

MetaScreener/
├── configs/models.yaml            # 模型注册表 + 阈值（唯一可信来源）
├── src/metascreener/
│   ├── api/                       # FastAPI 后端 + 路由
│   ├── core/                      # Pydantic 模型、枚举、异常
│   ├── io/                        # 文件读写器、PDF 解析器
│   ├── llm/                       # 大语言模型后端、适配器、并行运行器
│   ├── criteria/                  # PICO/PEO/SPIDER 标准生成器
│   ├── module1_screening/         # HCN 四层筛选流程
│   │   ├── layer1/                #   并行大语言模型推理
│   │   ├── layer2/                #   语义规则引擎
│   │   ├── layer3/                #   CCA + ECS 聚合
│   │   └── layer4/                #   决策路由
│   ├── module2_extraction/        # PDF 数据提取
│   ├── module3_quality/           # 偏倚风险评估（RoB 2 / ROBINS-I / QUADAS-2）
│   └── evaluation/                # 指标、校准、可视化
├── frontend/                      # Vue 3 + TypeScript + Vite
├── tests/                         # 单元测试 + 集成测试（全部离线）
├── validation/                    # 可重复性实验
├── docker/Dockerfile              # 多阶段构建（精简版 / 完整版）
├── run.py                         # 开发服务器启动脚本
└── pyproject.toml

评估指标

MetaScreener 计算标准的系统综述评估指标：

灵敏度（召回率）— 正确识别的相关研究比例
特异性 — 正确排除的无关研究比例
WSS@95 — 在 95% 召回率下的工作节省量
AUROC — 受试者工作特征曲线下的面积
布里尔分数 — 校准质量（置信度与正确性的匹配程度）
校准曲线 — 用于诊断模型概率校准的可视化工具
自助法 95% 置信区间 — 所有指标的置信区间

开发

# 安装依赖
uv sync --extra dev

# 运行测试（全部离线，无需 API 密钥）
uv run pytest

# 代码检查
uv run ruff check src/

# 类型检查
uv run mypy src/

# 开发服务器（FastAPI + Vite 热重载）
python run.py

Docker 构建

# 精简版构建（日常使用）
docker build -f docker/Dockerfile --target slim -t metascreener .

# 完整版构建（可重复性实验 + 可视化扩展功能）
docker build -f docker/Dockerfile --target full -t metascreener:full .

可重复性

MetaScreener 专为符合 TRIPOD-LLM 标准 的可重复性设计：

所有大语言模型调用均设置为 temperature = 0.0（输出确定性）
所有随机操作均设置为 seed = 42
完整审计追踪：每项决策都会记录模型输出、规则违反情况、置信度分数及时间戳
会话持久化：所有筛选会话均以 JSON 格式保存，便于后续分析
校准诊断：包括布里尔分数、校准曲线和置信区间

技术栈

组件	技术
后端	FastAPI、Uvicorn、Pydantic 2
前端	Vue 3（组合式 API）、TypeScript、Vite、Pinia
大语言模型路由	LiteLLM → OpenRouter API
PDF 处理	PyMuPDF (fitz)、Tesseract OCR
数据处理	pandas、NumPy、scikit-learn、SciPy
可视化	Plotly、Chart.js
日志记录	structlog（结构化 JSON）
测试	pytest、MockLLMAdapter（完全离线）

引用

如果您在研究中使用 MetaScreener，请引用以下内容：

@software{hong2025metascreener,
  author    = {Hong, Chaokun},
  title     = {{MetaScreener}: 开源多大语言模型集成系统用于系统综述筛选},
  year      = {2025},
  url       = {https://github.com/ChaokunHong/MetaScreener},
  license   = {Apache-2.0}
}

许可证

Apache 许可证 2.0 — 免费供学术和商业用途使用。

MetaScreener 快速上手指南

MetaScreener 是一个开源的多大语言模型（LLM）集成工具，专为系统综述的文献筛选阶段设计。它通过并行运行多个开源模型并聚合结果，提供透明、可复现且带有置信度量化的筛选决策。

环境准备

在开始之前，请确保满足以下系统要求：

操作系统：Linux, macOS 或 Windows
Python 版本：3.11 或更高版本
API 密钥：需要 OpenRouter 的 API Key（支持按量付费，注册免费）。
可选依赖：
- 若使用 Docker 方案，需安装 Docker Desktop。
- 若从源码开发，需安装 uv 和 Node.js 18+。

安装步骤

你可以选择以下任意一种方式进行安装：

方案 A：使用 pip 安装（推荐）

最简单的方式是通过 PyPI 安装：

pip install metascreener

方案 B：使用 Docker（无需配置 Python 环境）

如果你希望隔离环境或避免依赖冲突，可以使用 Docker：

docker pull chaokunhong/metascreener:latest

方案 C：从源码安装（开发者适用）

适合需要修改代码或贡献项目的用户：

git clone https://github.com/ChaokunHong/MetaScreener.git
cd MetaScreener

uv sync --extra dev        # 安装 Python 依赖
# 前端依赖将在启动时自动处理

基本使用

安装完成后，你可以通过以下两种方式启动 MetaScreener。

1. 启动 Web 界面

MetaScreener 提供现代化的 Web 界面，引导你完成从标准定义到文献筛选的全流程。

使用 pip 安装的用户：

python -m metascreener

使用 Docker 的用户：

请替换 sk-or-v1-your-key-here 为你的真实 OpenRouter API Key：

docker run -p 8000:8000 \
  -e OPENROUTER_API_KEY="sk-or-v1-your-key-here" \
  chaokunhong/metascreener

启动成功后，在浏览器中访问：http://localhost:8000

2. 配置与运行流程

进入 Web 界面后，按照以下步骤操作：

配置 API Key：
- 方法一：在网页 "Settings" 页面粘贴你的 OpenRouter API Key。
- 方法二：在终端设置环境变量（重启服务生效）：
```
export OPENROUTER_API_KEY="sk-or-v1-your-key-here"
```
定义筛选标准 (Criteria)：
- 输入你的研究问题，AI 将自动生成 PICO/PEO/SPIDER 筛选标准，或直接上传已有标准。
上传文献 (Upload)：
- 支持格式：.ris, .bib, .csv, .xlsx (来自 PubMed, Scopus, Web of Science 等)。
- 确保文件包含 title 和 abstract 列。
执行筛选 (Screening)：
- 选择模型预设（如 Balanced, Precision, Budget）。
- 点击运行，系统将并行调用多个 LLM 对标题和摘要进行分析。
- 实时查看每篇文献的决策（纳入/排除）、置信度分数及模型共识情况。
人工复核与导出：
- 系统会自动标记低置信度或不确定的案例供人工复核。
- 你可以手动修正决策，系统会根据反馈实时调整权重。
- 最终结果可导出为 CSV, Excel, JSON 或 RIS 格式。

开发者模式启动（仅限源码安装）

如果你选择了方案 C，可以使用以下命令同时启动后端和前端热重载服务：

python run.py

后端地址：http://localhost:8000
前端地址：http://localhost:5173

版本历史

v2.0.0a42026/02/26

v2.0.0a32026/02/25

v1.0.02025/05/13

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.1k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|3天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent