MetaScreener
MetaScreener 是一款专为系统综述研究设计的开源 AI 助手,旨在自动化处理文献筛选中繁琐的摘要与全文审查工作。在传统研究中,研究人员往往需要人工阅读成千上万篇文献的标题和摘要,耗时且容易疲劳出错。MetaScreener 通过并行调用多个开源大语言模型(如 DeepSeek、Qwen、Llama 等),对上传的文献数据进行集体“投票”,从而高效判断每篇文献是否符合纳入标准。
该工具特别适合从事医学、社会科学等领域系统综述的研究人员及学术团队使用。其核心亮点在于独特的“多模型集成”架构与“分层共识网络”:它不依赖单一模型的判断,而是结合校准后的置信度评分,将高置信度的文献自动归类,仅将不确定的案例标记出来供人工复核。这种机制不仅大幅降低了漏检风险,还通过主动学习功能,能根据用户的反馈实时优化模型权重。此外,MetaScreener 支持完全可复现的决策流程,确保每一步筛选都有据可查,让科研工作者能以极低的成本实现透明、高效且可靠的文献初筛。
使用场景
某高校公共卫生团队正在开展一项关于“间歇性禁食对 2 型糖尿病影响”的系统评价,需从数据库导出的 3,500 篇文献中筛选出符合 PICO 标准的研究。
没有 MetaScreener 时
- 人力消耗巨大:两名研究员需全职工作两周,逐篇阅读标题和摘要,极易因疲劳产生漏判或误判。
- 标准执行不一:不同成员对“随机对照试验”等纳入标准的理解存在细微偏差,导致初筛结果一致性低,后续需反复校准。
- 黑盒决策难追溯:若使用单一 AI 辅助,无法得知模型为何排除某篇文献,缺乏不确定性量化,不敢直接采信结果。
- 异常案例处理僵化:工具要么全自动化(风险高),要么全人工(效率低),缺乏将“模棱两可”案例自动路由给人工复审的机制。
使用 MetaScreener 后
- 效率提升十倍:MetaScreener 并行调用 DeepSeek、Qwen 等多个开源模型,仅用数小时即可完成初筛,将高置信度文献自动归类,人工只需复核约 15% 的不确定案例。
- 多模型共识保准:通过层级共识网络(HCN)让多个模型对 PICO 各要素独立投票,消除了单模型偏见,确保纳入排除决定基于集体智慧。
- 决策透明可解释:系统为每篇文献提供校准后的置信度分数及不确定性的量化指标,研究员可清晰看到哪些文章因“干预措施描述模糊”被标记复审。
- 动态人机协作:MetaScreener 自动将 Tier 3 类疑难文献推送给人工,并将专家的反馈实时用于调整模型权重,越用越精准。
MetaScreener 通过多模型集成与校准置信度机制,将系统评价中最耗时的筛选环节转化为高效、透明且可信赖的人机协作流程。
运行环境要求
- 未说明
不需要本地 GPU(通过 API 调用云端 LLM)
未说明

快速开始
面向系统综述筛选的开源多大语言模型集成工具
概述
MetaScreener 利用开源大型语言模型的集成,自动化系统综述的筛选阶段。它不依赖单一模型,而是并行运行多个大语言模型,并通过校准后的置信度流水线聚合其输出——生成透明、可重复且带有不确定性量化结果的决策。
核心理念: 上传您从 PubMed、Scopus 等数据库获取的检索结果,定义您的综述标准(PICO/PEO/SPIDER),MetaScreener 将逐篇读取标题和摘要,并返回包含/排除的决策及置信度分数。对于不确定的情况,则会转交给人工审核。
为什么选择 MetaScreener?
| 特性 | 描述 |
|---|---|
| 多大语言模型集成 | 4个以上的开源模型共同投票——不存在单点故障 |
| 校准后的置信度 | 后处理校准(Platt/等温)将原始得分映射为真实概率 |
| 分级决策 | 对高置信度案例自动决策,标记不确定案例供人工复核 |
| 要素共识 | 跨模型对各个要素(P/I/C/O)的一致性评分 |
| 主动学习 | 通过人工反馈循环实时重新校准模型权重 |
| 完全可重复性 | temperature=0.0,seed=42,每项决策均有审计追踪 |
| 成本效益 | 使用免费层级的 API 提供商,每篇论文约需 $0.003–0.009 |
架构
MetaScreener 采用层次化共识网络(HCN)——一个四层筛选流水线:
┌──────────────────────────────────┐
上传 │ 第一层:推理 │
.ris/.bib ──────────▶ │ 4+ 大语言模型通过 API 并行运行 │
.csv/.xlsx │ (DeepSeek, Qwen, Llama, Kimi…) │
└──────────────┬───────────────────┘
▼
┌──────────────────────────────────┐
PICO/PEO/ │ 第二层:规则引擎 │
SPIDER ──────────▶ │ 硬性规则(自动排除) │
标准 │ 软性规则(打分惩罚) │
└──────────────┬───────────────────┘
▼
┌──────────────────────────────────┐
│ 第三层:CCA + ECS │
│ 校准后的置信度聚合 │
│ 元素共识评分 │
└──────────────┬───────────────────┘
▼
┌──────────────────────────────────┐
│ 第四层:决策路由 │
│ 0级 → 硬性规则排除 │
│ 1级 → 高置信度自动决定 │
│ 2级 → 中等置信度自动决定 │
│ 3级 → 人工审核 │
└──────────────────────────────────┘
支持的模型
通过 OpenRouter 支持 15 种开源大语言模型,按能力划分如下:
| 层级 | 模型 | 特性 |
|---|---|---|
| 旗舰级 | DeepSeek V3、Qwen 3、Kimi K2.5 | 准确率最高,医学知识储备雄厚 |
| 强效级 | Llama 4 Maverick、GLM 5、MiniMax M2.7、Nous Hermes 4、Nvidia Nemotron、Cogito 671B、AI21 Jamba | 成本与性能平衡良好 |
| 轻量级 | Gemma 3 27B、Mistral Small 4、Phi 4 | 速度快、成本低,适合预算有限的筛选任务 |
推荐预设:
| 预设 | 模型 | 每篇论文成本 | 适用场景 |
|---|---|---|---|
| 平衡型 | 4个模型 | ~$0.005 | 多数综述 |
| 精准型 | 2个思考类 + 2个大型模型 | ~$0.009 | 高风险综述 |
| 经济型 | 1个基准模型 + 3个快速模型 | ~$0.003 | 大规模筛选 |
快速入门
前提条件
- Python 3.11+
- API 密钥,来自 OpenRouter(免费注册,按使用付费)
方案 A:使用 pip 安装
pip install metascreener
然后启动 Web UI:
python -m metascreener
# → 打开 http://localhost:8000
方案 B:使用 Docker(无需 Python)
docker pull chaokunhong/metascreener:latest
docker run -p 8000:8000 \
-e OPENROUTER_API_KEY="sk-or-v1-your-key-here" \
chaokunhong/metascreener
# → 打开 http://localhost:8000
方案 C:从源码构建(面向开发者)
需要 uv 和 Node.js 18+。
git clone https://github.com/ChaokunHong/MetaScreener.git
cd MetaScreener
uv sync --extra dev # 安装 Python 依赖
python run.py # 启动 FastAPI + Vite 开发服务器
# → 后端:http://localhost:8000
# → 前端:http://localhost:5173
配置
通过以下方法之一设置您的 API 密钥:
- Web UI — 进入设置页面并粘贴您的密钥
- 环境变量:
export OPENROUTER_API_KEY="sk-or-v1-your-key-here"
Web UI 工作流程
MetaScreener 提供现代化的 Web 界面(Vue 3),并配有引导式的分步工作流程:
| 步骤 | 页面 | 功能 |
|---|---|---|
| 0 | 标准 | 根据您的研究问题,由 AI 自动生成 PICO/PEO/SPIDER 标准 |
| 1 | 设置 | 选择模型、调整阈值、配置 API 密钥 |
| 2 | 标题摘要筛选 | 上传检索结果 → 运行标题摘要筛选 → 审核决策 |
| 3 | 全文筛选 | 上传 PDF 文件 → 使用智能分块技术进行全文筛选 |
| 4 | 数据提取 | 从纳入的 PDF 中提取结构化数据(表格、字段) |
| 5 | 质量评估 | 偏倚风险评估(RoB 2 / ROBINS-I / QUADAS-2) |
| 6 | 评估 | 性能指标、校准诊断及可视化 |
| 7 | 历史记录 | 包含完整决策来源的会话审计轨迹 |
筛选流程
- 上传 您的检索导出文件(.ris、.bib、.csv、.xlsx)
- 定义标准 — 输入您的研究问题,让 AI 生成 PICO 标准,或上传现有标准
- 运行筛选 — 文献将逐篇处理,并实时显示进度
- 审核 — 每篇文献会显示:决策、置信度分数、层级、各要素的一致性评分、模型一致性
- 覆盖 — 如果您不同意某项决策?可直接覆盖,系统会根据您的反馈进行学习
- 导出 — 将结果下载为 CSV、Excel、JSON 或 RIS 格式
工作原理
第一层 — 并行大语言模型推理
每篇文献会同时发送至 4 个以上的大语言模型。每个模型会返回:
- 决策(纳入 / 排除 / 不确定)
- 置信度分数(0–1)
- 各要素评估(人群、干预、对照、结局)
- 推理链 解释决策依据
第二层 — 语义规则引擎
硬性规则会自动排除不符合不可协商标准的文献(例如语言错误、应为人类研究却为动物研究)。柔性规则则会对部分匹配的文献给予扣分。
第三层 — 校准置信度聚合(CCA)
原始模型得分会使用 Platt 缩放或等熵回归进行校准,随后通过层级加权融合进行聚合。**要素一致性评分(ECS)**用于衡量各模型在各个要素上的一致程度——如果所有模型都认为“人群”匹配,但在“结局”上存在分歧,这一情况会被精准捕捉。
第四层 — 决策路由
文献会被路由到四个层级之一:
| 层级 | 条件 | 行动 |
|---|---|---|
| 0 | 违反硬性规则 | 自动排除 |
| 1 | 高 ECS(≥0.60)且所有模型一致 | 自动决策 |
| 2 | 中等 ECS(≥0.10)且异议在可接受范围内 | 以较低置信度自动决策 |
| 3 | 置信度低或意见高度不一致 | 转交人工审核 |
支持的文件格式
| 格式 | 扩展名 | 来源 |
|---|---|---|
| RIS | .ris |
PubMed、Scopus、Web of Science、Ovid、Embase |
| BibTeX | .bib |
Google Scholar、Zotero、Mendeley |
| CSV | .csv |
任何电子表格(需包含 title 和 abstract 列) |
| Excel | .xlsx |
任何电子表格(需包含 title 和 abstract 列) |
.pdf |
用于全文筛选和数据提取 |
项目结构
MetaScreener/
├── configs/models.yaml # 模型注册表 + 阈值(唯一可信来源)
├── src/metascreener/
│ ├── api/ # FastAPI 后端 + 路由
│ ├── core/ # Pydantic 模型、枚举、异常
│ ├── io/ # 文件读写器、PDF 解析器
│ ├── llm/ # 大语言模型后端、适配器、并行运行器
│ ├── criteria/ # PICO/PEO/SPIDER 标准生成器
│ ├── module1_screening/ # HCN 四层筛选流程
│ │ ├── layer1/ # 并行大语言模型推理
│ │ ├── layer2/ # 语义规则引擎
│ │ ├── layer3/ # CCA + ECS 聚合
│ │ └── layer4/ # 决策路由
│ ├── module2_extraction/ # PDF 数据提取
│ ├── module3_quality/ # 偏倚风险评估(RoB 2 / ROBINS-I / QUADAS-2)
│ └── evaluation/ # 指标、校准、可视化
├── frontend/ # Vue 3 + TypeScript + Vite
├── tests/ # 单元测试 + 集成测试(全部离线)
├── validation/ # 可重复性实验
├── docker/Dockerfile # 多阶段构建(精简版 / 完整版)
├── run.py # 开发服务器启动脚本
└── pyproject.toml
评估指标
MetaScreener 计算标准的系统综述评估指标:
- 灵敏度(召回率)— 正确识别的相关研究比例
- 特异性 — 正确排除的无关研究比例
- WSS@95 — 在 95% 召回率下的工作节省量
- AUROC — 受试者工作特征曲线下的面积
- 布里尔分数 — 校准质量(置信度与正确性的匹配程度)
- 校准曲线 — 用于诊断模型概率校准的可视化工具
- 自助法 95% 置信区间 — 所有指标的置信区间
开发
# 安装依赖
uv sync --extra dev
# 运行测试(全部离线,无需 API 密钥)
uv run pytest
# 代码检查
uv run ruff check src/
# 类型检查
uv run mypy src/
# 开发服务器(FastAPI + Vite 热重载)
python run.py
Docker 构建
# 精简版构建(日常使用)
docker build -f docker/Dockerfile --target slim -t metascreener .
# 完整版构建(可重复性实验 + 可视化扩展功能)
docker build -f docker/Dockerfile --target full -t metascreener:full .
可重复性
MetaScreener 专为符合 TRIPOD-LLM 标准 的可重复性设计:
- 所有大语言模型调用均设置为
temperature = 0.0(输出确定性) - 所有随机操作均设置为
seed = 42 - 完整审计追踪:每项决策都会记录模型输出、规则违反情况、置信度分数及时间戳
- 会话持久化:所有筛选会话均以 JSON 格式保存,便于后续分析
- 校准诊断:包括布里尔分数、校准曲线和置信区间
技术栈
| 组件 | 技术 |
|---|---|
| 后端 | FastAPI、Uvicorn、Pydantic 2 |
| 前端 | Vue 3(组合式 API)、TypeScript、Vite、Pinia |
| 大语言模型路由 | LiteLLM → OpenRouter API |
| PDF 处理 | PyMuPDF (fitz)、Tesseract OCR |
| 数据处理 | pandas、NumPy、scikit-learn、SciPy |
| 可视化 | Plotly、Chart.js |
| 日志记录 | structlog(结构化 JSON) |
| 测试 | pytest、MockLLMAdapter(完全离线) |
引用
如果您在研究中使用 MetaScreener,请引用以下内容:
@software{hong2025metascreener,
author = {Hong, Chaokun},
title = {{MetaScreener}: 开源多大语言模型集成系统用于系统综述筛选},
year = {2025},
url = {https://github.com/ChaokunHong/MetaScreener},
license = {Apache-2.0}
}
许可证
Apache 许可证 2.0 — 免费供学术和商业用途使用。
版本历史
v2.0.0a42026/02/26v2.0.0a32026/02/25v1.0.02025/05/13相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
n8n
n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。