MetaScreener

GitHub
1.3k 48 简单 1 次阅读 1周前Apache-2.0语言模型插件开发框架
AI 解读 由 AI 自动生成,仅供参考

MetaScreener 是一款专为系统综述研究设计的开源 AI 助手,旨在自动化处理文献筛选中繁琐的摘要与全文审查工作。在传统研究中,研究人员往往需要人工阅读成千上万篇文献的标题和摘要,耗时且容易疲劳出错。MetaScreener 通过并行调用多个开源大语言模型(如 DeepSeek、Qwen、Llama 等),对上传的文献数据进行集体“投票”,从而高效判断每篇文献是否符合纳入标准。

该工具特别适合从事医学、社会科学等领域系统综述的研究人员及学术团队使用。其核心亮点在于独特的“多模型集成”架构与“分层共识网络”:它不依赖单一模型的判断,而是结合校准后的置信度评分,将高置信度的文献自动归类,仅将不确定的案例标记出来供人工复核。这种机制不仅大幅降低了漏检风险,还通过主动学习功能,能根据用户的反馈实时优化模型权重。此外,MetaScreener 支持完全可复现的决策流程,确保每一步筛选都有据可查,让科研工作者能以极低的成本实现透明、高效且可靠的文献初筛。

使用场景

某高校公共卫生团队正在开展一项关于“间歇性禁食对 2 型糖尿病影响”的系统评价,需从数据库导出的 3,500 篇文献中筛选出符合 PICO 标准的研究。

没有 MetaScreener 时

  • 人力消耗巨大:两名研究员需全职工作两周,逐篇阅读标题和摘要,极易因疲劳产生漏判或误判。
  • 标准执行不一:不同成员对“随机对照试验”等纳入标准的理解存在细微偏差,导致初筛结果一致性低,后续需反复校准。
  • 黑盒决策难追溯:若使用单一 AI 辅助,无法得知模型为何排除某篇文献,缺乏不确定性量化,不敢直接采信结果。
  • 异常案例处理僵化:工具要么全自动化(风险高),要么全人工(效率低),缺乏将“模棱两可”案例自动路由给人工复审的机制。

使用 MetaScreener 后

  • 效率提升十倍:MetaScreener 并行调用 DeepSeek、Qwen 等多个开源模型,仅用数小时即可完成初筛,将高置信度文献自动归类,人工只需复核约 15% 的不确定案例。
  • 多模型共识保准:通过层级共识网络(HCN)让多个模型对 PICO 各要素独立投票,消除了单模型偏见,确保纳入排除决定基于集体智慧。
  • 决策透明可解释:系统为每篇文献提供校准后的置信度分数及不确定性的量化指标,研究员可清晰看到哪些文章因“干预措施描述模糊”被标记复审。
  • 动态人机协作:MetaScreener 自动将 Tier 3 类疑难文献推送给人工,并将专家的反馈实时用于调整模型权重,越用越精准。

MetaScreener 通过多模型集成与校准置信度机制,将系统评价中最耗时的筛选环节转化为高效、透明且可信赖的人机协作流程。

运行环境要求

操作系统
  • 未说明
GPU

不需要本地 GPU(通过 API 调用云端 LLM)

内存

未说明

依赖
notes该工具基于云端 API(如 OpenRouter)运行,无需本地部署大模型或显卡。支持 Docker 部署或直接通过 pip 安装。开发模式需安装 Node.js 18+ 和 uv 包管理器。
python3.11+
FastAPI
uvicorn
Pydantic
Vue 3
Node.js 18+
uv
MetaScreener hero image

快速开始

MetaScreener Logo

面向系统综述筛选的开源多大语言模型集成工具

PyPI Docker License Python


概述

MetaScreener 利用开源大型语言模型的集成,自动化系统综述的筛选阶段。它不依赖单一模型,而是并行运行多个大语言模型,并通过校准后的置信度流水线聚合其输出——生成透明、可重复且带有不确定性量化结果的决策。

核心理念: 上传您从 PubMed、Scopus 等数据库获取的检索结果,定义您的综述标准(PICO/PEO/SPIDER),MetaScreener 将逐篇读取标题和摘要,并返回包含/排除的决策及置信度分数。对于不确定的情况,则会转交给人工审核。

为什么选择 MetaScreener?

特性 描述
多大语言模型集成 4个以上的开源模型共同投票——不存在单点故障
校准后的置信度 后处理校准(Platt/等温)将原始得分映射为真实概率
分级决策 对高置信度案例自动决策,标记不确定案例供人工复核
要素共识 跨模型对各个要素(P/I/C/O)的一致性评分
主动学习 通过人工反馈循环实时重新校准模型权重
完全可重复性 temperature=0.0seed=42,每项决策均有审计追踪
成本效益 使用免费层级的 API 提供商,每篇论文约需 $0.003–0.009

架构

MetaScreener 采用层次化共识网络(HCN)——一个四层筛选流水线:

                        ┌──────────────────────────────────┐
    上传              │         第一层:推理        │
  .ris/.bib ──────────▶ │  4+ 大语言模型通过 API 并行运行  │
  .csv/.xlsx            │  (DeepSeek, Qwen, Llama, Kimi…)  │
                        └──────────────┬───────────────────┘
                                       ▼
                        ┌──────────────────────────────────┐
    PICO/PEO/           │       第二层:规则引擎        │
    SPIDER  ──────────▶ │  硬性规则(自动排除)        │
    标准            │  软性规则(打分惩罚)      │
                        └──────────────┬───────────────────┘
                                       ▼
                        ┌──────────────────────────────────┐
                        │     第三层:CCA + ECS            │
                        │  校准后的置信度聚合               │
                        │  元素共识评分                     │
                        └──────────────┬───────────────────┘
                                       ▼
                        ┌──────────────────────────────────┐
                        │    第四层:决策路由        │
                        │  0级 → 硬性规则排除      │
                        │  1级 → 高置信度自动决定   │
                        │  2级 → 中等置信度自动决定 │
                        │  3级 → 人工审核             │
                        └──────────────────────────────────┘

支持的模型

通过 OpenRouter 支持 15 种开源大语言模型,按能力划分如下:

层级 模型 特性
旗舰级 DeepSeek V3、Qwen 3、Kimi K2.5 准确率最高,医学知识储备雄厚
强效级 Llama 4 Maverick、GLM 5、MiniMax M2.7、Nous Hermes 4、Nvidia Nemotron、Cogito 671B、AI21 Jamba 成本与性能平衡良好
轻量级 Gemma 3 27B、Mistral Small 4、Phi 4 速度快、成本低,适合预算有限的筛选任务

推荐预设:

预设 模型 每篇论文成本 适用场景
平衡型 4个模型 ~$0.005 多数综述
精准型 2个思考类 + 2个大型模型 ~$0.009 高风险综述
经济型 1个基准模型 + 3个快速模型 ~$0.003 大规模筛选

快速入门

前提条件

  • Python 3.11+
  • API 密钥,来自 OpenRouter(免费注册,按使用付费)

方案 A:使用 pip 安装

pip install metascreener

然后启动 Web UI:

python -m metascreener
# → 打开 http://localhost:8000

方案 B:使用 Docker(无需 Python)

docker pull chaokunhong/metascreener:latest

docker run -p 8000:8000 \
  -e OPENROUTER_API_KEY="sk-or-v1-your-key-here" \
  chaokunhong/metascreener
# → 打开 http://localhost:8000

方案 C:从源码构建(面向开发者)

需要 uvNode.js 18+

git clone https://github.com/ChaokunHong/MetaScreener.git
cd MetaScreener

uv sync --extra dev        # 安装 Python 依赖
python run.py              # 启动 FastAPI + Vite 开发服务器
# → 后端:http://localhost:8000
# → 前端:http://localhost:5173

配置

通过以下方法之一设置您的 API 密钥:

  1. Web UI — 进入设置页面并粘贴您的密钥
  2. 环境变量:
    export OPENROUTER_API_KEY="sk-or-v1-your-key-here"
    

Web UI 工作流程

MetaScreener 提供现代化的 Web 界面(Vue 3),并配有引导式的分步工作流程:

步骤 页面 功能
0 标准 根据您的研究问题,由 AI 自动生成 PICO/PEO/SPIDER 标准
1 设置 选择模型、调整阈值、配置 API 密钥
2 标题摘要筛选 上传检索结果 → 运行标题摘要筛选 → 审核决策
3 全文筛选 上传 PDF 文件 → 使用智能分块技术进行全文筛选
4 数据提取 从纳入的 PDF 中提取结构化数据(表格、字段)
5 质量评估 偏倚风险评估(RoB 2 / ROBINS-I / QUADAS-2)
6 评估 性能指标、校准诊断及可视化
7 历史记录 包含完整决策来源的会话审计轨迹

筛选流程

  1. 上传 您的检索导出文件(.ris、.bib、.csv、.xlsx)
  2. 定义标准 — 输入您的研究问题,让 AI 生成 PICO 标准,或上传现有标准
  3. 运行筛选 — 文献将逐篇处理,并实时显示进度
  4. 审核 — 每篇文献会显示:决策、置信度分数、层级、各要素的一致性评分、模型一致性
  5. 覆盖 — 如果您不同意某项决策?可直接覆盖,系统会根据您的反馈进行学习
  6. 导出 — 将结果下载为 CSV、Excel、JSON 或 RIS 格式

工作原理

第一层 — 并行大语言模型推理

每篇文献会同时发送至 4 个以上的大语言模型。每个模型会返回:

  • 决策(纳入 / 排除 / 不确定)
  • 置信度分数(0–1)
  • 各要素评估(人群、干预、对照、结局)
  • 推理链 解释决策依据

第二层 — 语义规则引擎

硬性规则会自动排除不符合不可协商标准的文献(例如语言错误、应为人类研究却为动物研究)。柔性规则则会对部分匹配的文献给予扣分。

第三层 — 校准置信度聚合(CCA)

原始模型得分会使用 Platt 缩放或等熵回归进行校准,随后通过层级加权融合进行聚合。**要素一致性评分(ECS)**用于衡量各模型在各个要素上的一致程度——如果所有模型都认为“人群”匹配,但在“结局”上存在分歧,这一情况会被精准捕捉。

第四层 — 决策路由

文献会被路由到四个层级之一:

层级 条件 行动
0 违反硬性规则 自动排除
1 高 ECS(≥0.60)且所有模型一致 自动决策
2 中等 ECS(≥0.10)且异议在可接受范围内 以较低置信度自动决策
3 置信度低或意见高度不一致 转交人工审核

支持的文件格式

格式 扩展名 来源
RIS .ris PubMed、Scopus、Web of Science、Ovid、Embase
BibTeX .bib Google Scholar、Zotero、Mendeley
CSV .csv 任何电子表格(需包含 titleabstract 列)
Excel .xlsx 任何电子表格(需包含 titleabstract 列)
PDF .pdf 用于全文筛选和数据提取

项目结构

MetaScreener/
├── configs/models.yaml            # 模型注册表 + 阈值(唯一可信来源)
├── src/metascreener/
│   ├── api/                       # FastAPI 后端 + 路由
│   ├── core/                      # Pydantic 模型、枚举、异常
│   ├── io/                        # 文件读写器、PDF 解析器
│   ├── llm/                       # 大语言模型后端、适配器、并行运行器
│   ├── criteria/                  # PICO/PEO/SPIDER 标准生成器
│   ├── module1_screening/         # HCN 四层筛选流程
│   │   ├── layer1/                #   并行大语言模型推理
│   │   ├── layer2/                #   语义规则引擎
│   │   ├── layer3/                #   CCA + ECS 聚合
│   │   └── layer4/                #   决策路由
│   ├── module2_extraction/        # PDF 数据提取
│   ├── module3_quality/           # 偏倚风险评估(RoB 2 / ROBINS-I / QUADAS-2)
│   └── evaluation/                # 指标、校准、可视化
├── frontend/                      # Vue 3 + TypeScript + Vite
├── tests/                         # 单元测试 + 集成测试(全部离线)
├── validation/                    # 可重复性实验
├── docker/Dockerfile              # 多阶段构建(精简版 / 完整版)
├── run.py                         # 开发服务器启动脚本
└── pyproject.toml

评估指标

MetaScreener 计算标准的系统综述评估指标:

  • 灵敏度(召回率)— 正确识别的相关研究比例
  • 特异性 — 正确排除的无关研究比例
  • WSS@95 — 在 95% 召回率下的工作节省量
  • AUROC — 受试者工作特征曲线下的面积
  • 布里尔分数 — 校准质量(置信度与正确性的匹配程度)
  • 校准曲线 — 用于诊断模型概率校准的可视化工具
  • 自助法 95% 置信区间 — 所有指标的置信区间

开发

# 安装依赖
uv sync --extra dev

# 运行测试(全部离线,无需 API 密钥)
uv run pytest

# 代码检查
uv run ruff check src/

# 类型检查
uv run mypy src/

# 开发服务器(FastAPI + Vite 热重载)
python run.py

Docker 构建

# 精简版构建(日常使用)
docker build -f docker/Dockerfile --target slim -t metascreener .

# 完整版构建(可重复性实验 + 可视化扩展功能)
docker build -f docker/Dockerfile --target full -t metascreener:full .

可重复性

MetaScreener 专为符合 TRIPOD-LLM 标准 的可重复性设计:

  • 所有大语言模型调用均设置为 temperature = 0.0(输出确定性)
  • 所有随机操作均设置为 seed = 42
  • 完整审计追踪:每项决策都会记录模型输出、规则违反情况、置信度分数及时间戳
  • 会话持久化:所有筛选会话均以 JSON 格式保存,便于后续分析
  • 校准诊断:包括布里尔分数、校准曲线和置信区间

技术栈

组件 技术
后端 FastAPI、Uvicorn、Pydantic 2
前端 Vue 3(组合式 API)、TypeScript、Vite、Pinia
大语言模型路由 LiteLLM → OpenRouter API
PDF 处理 PyMuPDF (fitz)、Tesseract OCR
数据处理 pandas、NumPy、scikit-learn、SciPy
可视化 Plotly、Chart.js
日志记录 structlog(结构化 JSON)
测试 pytest、MockLLMAdapter(完全离线)

引用

如果您在研究中使用 MetaScreener,请引用以下内容:

@software{hong2025metascreener,
  author    = {Hong, Chaokun},
  title     = {{MetaScreener}: 开源多大语言模型集成系统用于系统综述筛选},
  year      = {2025},
  url       = {https://github.com/ChaokunHong/MetaScreener},
  license   = {Apache-2.0}
}

许可证

Apache 许可证 2.0 — 免费供学术和商业用途使用。

版本历史

v2.0.0a42026/02/26
v2.0.0a32026/02/25
v1.0.02025/05/13

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2周前
Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。

184.7k|★★☆☆☆|今天
数据工具开发框架Agent

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

161.1k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|3天前
Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|昨天
开发框架图像Agent