cdQA

617 191 中等 2 次阅读 1个月前Apache-2.0语言模型其他开发框架

AI 解读由 AI 自动生成，仅供参考

cdQA 是一款专为封闭领域设计的端到端问答系统，底层依托于强大的 HuggingFace transformers 库。它旨在帮助技术团队轻松构建基于私有文档的智能问答机器人，解决了传统 NLP 项目中数据预处理复杂、模型集成门槛高的问题。

对于开发者与研究人员而言，cdQA 提供了从数据准备到模型部署的一站式体验。用户只需准备包含标题和段落的结构化数据，或利用内置转换器直接处理 PDF、Markdown 等常见文档格式，即可快速启动训练流程。系统内置了预训练模型下载、训练、预测及评估模块，大幅降低了搭建垂直领域问答应用的技术成本。

值得注意的是，cdQA 目前已进入非维护状态，仅保留用于教育目的。若寻求生产环境中的稳定替代方案，建议参考其推荐的 Haystack 框架。但在理解问答系统原理及快速原型验证方面，cdQA 依然是一个值得探索的优秀开源项目。

使用场景

某大型制造企业 IT 部门计划搭建内部技术问答系统，帮助一线工程师快速解决设备报错问题。

没有 cdQA 时

工程师需手动打开数十个 PDF 手册，逐页搜索关键词，查找特定参数耗时过长且容易遗漏。
传统搜索引擎无法理解“服务器启动失败怎么办”这类语义问题，只能匹配字面词导致结果不相关。
文档更新频繁，维护一套独立的检索数据库需要大量人力进行数据清洗、去重和格式标准化。
想要将知识接入 Slack 或钉钉机器人，缺乏现成的 API 接口，开发周期长且代码耦合度高。

使用 cdQA 后

利用 pdf_converter 一键解析文档目录，自动构建包含标题与段落的 Pandas 数据框，省去繁琐预处理。
内置预训练模型能精准理解用户意图，直接从段落中提取答案而非仅返回链接，响应速度更快。
提供完整的训练与评估流程，可根据内部术语微调模型，提升垂直领域准确率并监控效果。
支持 Docker 部署与 API 调用，数小时内即可将问答能力嵌入现有办公协作平台，实现无缝集成。

cdQA 通过端到端的问答系统架构，将静态文档转化为动态的智能服务，显著降低了知识检索的时间成本与技术门槛。

运行环境要求

操作系统

Linux

GPU

需要 NVIDIA GPU，显存 16GB (Tesla V100)

内存

未说明

依赖

notes项目已停止维护（仅供教育用途）；PDF 转换功能需安装 Java OpenJDK；官方测试环境基于 Ubuntu Deep Learning AMI；支持通过 Binder 或 Google Colab 在线运行示例。

python未说明

transformers

pandas

flask

快速开始

cdQA：封闭领域问答系统

GitHub

一个端到端的封闭领域问答（Closed Domain Question Answering）系统。基于 HuggingFace transformers 库构建。

⛔ [不再维护] 此仓库已不再维护，但保留用于教育目的。如果您想要 cdQA 的替代维护版本，请查看：https://github.com/deepset-ai/haystack

cdQA 详解

如果您对了解系统工作原理及其实现感兴趣，我们撰写了一篇 Medium 文章，其中包含高层解释。

我们还参加了由 Feedly 组织的第 9 届 NLP Breakfast 会议并进行了演示。您可以在此处查看此处。

安装

使用 pip

pip install cdqa

从源码

git clone https://github.com/cdqa-suite/cdQA.git
cd cdQA
pip install -e .

硬件要求

实验是在以下环境下进行的：

CPU 👉 AWS EC2 t2.medium Deep Learning AMI (Ubuntu) Version 22.0
GPU 👉 AWS EC2 p3.2xlarge Deep Learning AMI (Ubuntu) Version 22.0 + 单张 Tesla V100 16GB。

入门指南

准备数据

手动

要使用 cdQA，您需要创建一个包含以下列的 pandas DataFrame（pandas 数据框）：

title	paragraphs
The Article Title	[Paragraph 1 of Article, ... , Paragraph N of Article]

使用转换器

cdqa 转换器的目标是让您能够轻松地从原始文档数据库创建此 DataFrame。例如，pdf_converter 可以从包含 .pdf 文件的目录创建 cdqa DataFrame：

from cdqa.utils.converters import pdf_converter

df = pdf_converter(directory_path='path_to_pdf_folder')

您需要安装 Java OpenJDK 才能使用此转换器。我们目前拥有以下转换器：

pdf
markdown

我们计划在未来改进并添加更多转换器。敬请期待！

下载预训练模型和数据

您可以从 GitHub 发布页面手动下载模型和数据，或者使用我们的下载函数：

from cdqa.utils.download import download_squad, download_model, download_bnpp_data

directory = 'path-to-directory'

# Downloading data
download_squad(dir=directory)
download_bnpp_data(dir=directory)

# Downloading pre-trained BERT fine-tuned on SQuAD 1.1
download_model('bert-squad_1.1', dir=directory)

# Downloading pre-trained DistilBERT fine-tuned on SQuAD 1.1
download_model('distilbert-squad_1.1', dir=directory)

训练模型

使用预训练的阅读器在您的语料库上拟合管道：

import pandas as pd
from ast import literal_eval
from cdqa.pipeline import QAPipeline

df = pd.read_csv('your-custom-corpus-here.csv', converters={'paragraphs': literal_eval})

cdqa_pipeline = QAPipeline(reader='bert_qa.joblib') # use 'distilbert_qa.joblib' for DistilBERT instead of BERT
cdqa_pipeline.fit_retriever(df=df)

如果您想在自定义的 SQuAD 风格标注数据集上微调阅读器：

cdqa_pipeline = QAPipeline(reader='bert_qa.joblib') # use 'distilbert_qa.joblib' for DistilBERT instead of BERT
cdqa_pipeline.fit_reader('path-to-custom-squad-like-dataset.json')

微调后保存阅读器模型：

cdqa_pipeline.dump_reader('path-to-save-bert-reader.joblib')

进行预测

获取给定输入查询的最佳预测：

cdqa_pipeline.predict(query='your question')

获取 N 个最佳预测：

cdqa_pipeline.predict(query='your question', n_predictions=N)

还可以更改检索器分数与阅读器分数的权重，以计算最终排名分数（默认值为 0.35，这在 SQuAD 1.1-open 的开发集上被证明是最佳权重）

cdqa_pipeline.predict(query='your question', retriever_score_weight=0.35)

评估模型

要在自定义数据集上评估模型，您需要对其进行标注。标注过程可分为 3 个步骤：

将您的 pandas DataFrame 转换为具有 SQuAD 格式的 json 文件：

from cdqa.utils.converters import df2squad

json_data = df2squad(df=df, squad_version='v1.1', output_dir='.', filename='dataset-name')

使用标注工具添加 ground truth（真实值）问题 - 答案对：

请参阅我们的 cdQA-annotator，这是一个用于带有 SQuAD 格式的封闭域问答数据集的基于 Web 的 annotator（标注工具）。

评估 pipeline（流水线）对象：

from cdqa.utils.evaluation import evaluate_pipeline

evaluate_pipeline(cdqa_pipeline, 'path-to-annotated-dataset.json')

评估 reader（阅读模型）：

from cdqa.utils.evaluation import evaluate_reader

evaluate_reader(cdqa_pipeline, 'path-to-annotated-dataset.json')

Notebook 示例

我们在 examples 目录下准备了一些 Notebook 示例。

您也可以使用 Binder 或 Google Colaboratory 直接运行这些 Notebook 示例：

Notebook	Hardware	Platform
[1] cdQA 入门步骤	CPU 或 GPU
[2] 使用 PDF 转换器	CPU 或 GPU
[3] 在 SQuAD 上训练阅读模型	GPU

Binder 和 Google Colaboratory 提供临时环境，启动可能较慢，但如果您想轻松开始使用 cdQA，我们推荐它们。

部署

手动

您可以通过执行以下命令来部署 cdQA REST API：

export dataset_path=path-to-dataset.csv
export reader_path=path-to-reader-model

FLASK_APP=api.py flask run -h 0.0.0.0

现在您可以发送请求来测试您的 API（此处使用 HTTPie）：

http localhost:5000/api query=='your question here'

如果您希望在 cdQA 系统之上提供用户界面，请遵循 cdQA-ui 的说明，这是为 cdQA 开发的 Web 界面。

贡献

请阅读我们的贡献指南。

参考文献

类型	标题	作者	年份
:video_camera: 视频	斯坦福 CS224N：自然语言处理 (NLP) 与深度学习第 10 讲 – 问答系统	Christopher Manning	2019
:newspaper: 论文	阅读维基百科以回答开放域问题	Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes	2017
:newspaper: 论文	神经阅读理解与超越	Danqi Chen	2018
:newspaper: 论文	BERT：用于语言理解的深度双向 Transformer（变换器）预训练	Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova	2018
:newspaper: 论文	上下文词表示：一种上下文介绍	Noah A. Smith	2019
:newspaper: 论文	基于 BERTserini 的端到端开放域问答系统	Wei Yang, Yuqing Xie, Aileen Lin, Xingyu Li, Luchen Tan, Kun Xiong, Ming Li, Jimmy Lin	2019
:newspaper: 论文	开放域问答中 BERT 微调 (Fine-Tuning) 的数据增强	Wei Yang, Yuqing Xie, Luchen Tan, Kun Xiong, Ming Li, Jimmy Lin	2019
:newspaper: 论文	基于 BERT 的段落重排序 (Re-ranking)	Rodrigo Nogueira, Kyunghyun Cho	2019
:newspaper: 论文	MRQA：面向问答的机器阅读	Jonathan Berant, Percy Liang, Luke Zettlemoyer	2019
:newspaper: 论文	通过完形填空翻译进行无监督问答	Patrick Lewis, Ludovic Denoyer, Sebastian Riedel	2019
:computer: 框架	Scikit-learn：Python 中的机器学习	Pedregosa et al.	2011
:computer: 框架	PyTorch	Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan	2016
:computer: 框架	Transformers：适用于 TensorFlow 2.0 和 PyTorch 的尖端自然语言处理库	Hugging Face	2018

许可证

Apache-2.0

cdQA 快速上手指南

⚠️ 重要提示：该项目已停止维护（Not Maintained），仅保留用于教育目的。如需生产级替代方案，建议查看 Haystack。

1. 环境准备

系统要求

操作系统: Linux (Ubuntu 22.0+), macOS, Windows (WSL)
硬件:
- CPU: 支持标准推理 (如 AWS EC2 t2.medium)
- GPU (推荐): 单卡 Tesla V100 16GB 或更高性能显卡以加速训练与推理
依赖:
- Python 环境
- Java OpenJDK (仅在使用 PDF 转换器时需要)

2. 安装步骤

方式一：通过 pip 安装 (推荐)

pip install cdqa

方式二：从源码安装

git clone https://github.com/cdqa-suite/cdQA.git
cd cdQA
pip install -e .

3. 基本使用

第一步：准备数据

创建包含 title 和 paragraphs 列的 Pandas DataFrame。

import pandas as pd
from ast import literal_eval

# 示例：读取 CSV 并转换 paragraphs 列为列表
df = pd.read_csv('your-custom-corpus-here.csv', converters={'paragraphs': literal_eval})

注：也可使用内置转换器将 PDF 或 Markdown 文件转换为所需格式。

第二步：下载预训练模型

需手动下载模型文件或运行以下脚本：

from cdqa.utils.download import download_model

directory = 'path-to-directory'
# 下载基于 SQuAD 1.1 微调的 BERT 模型
download_model('bert-squad_1.1', dir=directory)

第三步：初始化管道与预测

加载模型并进行问答预测。

from cdqa.pipeline import QAPipeline

# 初始化管道 (使用 distilbert_qa.joblib 可换取更快速度)
cdqa_pipeline = QAPipeline(reader='bert_qa.joblib')

# 检索器适配 (可选，视数据集大小而定)
cdqa_pipeline.fit_retriever(df=df)

# 进行预测
result = cdqa_pipeline.predict(query='你的问题')
print(result)

进阶：微调阅读模型

若拥有自定义标注数据 (SQuAD 格式)，可进一步微调 Reader：

# 在自定义数据集上微调
cdqa_pipeline.fit_reader('path-to-custom-squad-like-dataset.json')

# 保存微调后的模型
cdqa_pipeline.dump_reader('path-to-save-bert-reader.joblib')

4. 其他资源

在线体验: 可通过 Binder 或 Google Colab 直接运行 Notebook 示例。
API 部署: 支持 Flask 部署 REST API，详见项目文档中的 Deployment 章节。

版本历史

bert_qa2019/10/25

distilbert_qa2019/10/25

bert_qa_vGPU2019/06/02

bert_qa_vCPU2019/05/31

bnpp_newsroom_v1.12019/05/14

常见问题

初始化 QAPipeline 时应该使用哪个参数名来加载模型？

如何单独对 Reader 组件进行训练？

cdQA 是否支持除英语以外的语言？

如何判断系统无法回答用户的问题？

如何为 QA 数据集（JSON 格式）添加唯一 ID？

部署 cdQA REST API 后请求出现 404 错误如何解决？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架