ThoughtSource
ThoughtSource 是一个专注于大语言模型“思维链”(Chain-of-Thought)推理的开源中心资源库,由 Samwald 研究组开发。它旨在为机器思考的科学化研究提供统一的数据标准与工具支持,核心目标是推动先进 AI 系统在科学研究和医疗实践等关键领域实现更可信、更稳健的逻辑推理能力。
当前大模型推理研究面临数据格式混乱、来源分散且难以复现的挑战。ThoughtSource 通过提供标准化的数据加载器,将来自 CommonsenseQA、StrategyQA、WorldTree 等多个知名数据集的原始内容进行深度后处理,整合成格式统一的思维链数据。其独特亮点在于同时收录了人类标注的“黄金标准”推理路径,以及基于不同提示策略(如少样本、零样本)生成的 AI 推理链条,并直接兼容 Hugging Face Datasets 格式,极大降低了数据获取与对比分析的门槛。
这款工具非常适合 AI 研究人员、算法工程师及大模型开发者使用。无论是希望深入探究模型推理机制的学者,还是致力于提升垂直领域(如医疗、科学问答)应用可靠性的开发者,都能利用 ThoughtSource 快速构建高质量的训练与评估基准,从而加速可解释性 AI 的研发进程。
使用场景
某医疗 AI 初创团队正致力于开发一款辅助医生进行复杂病例诊断的大语言模型,急需高质量的推理数据来训练模型的“思维链”能力。
没有 ThoughtSource 时
- 数据搜集碎片化:工程师需手动在 arXiv、GitHub 和各大学术网站间穿梭,寻找分散的 CommonsenseQA 或 MedQA 数据集,耗时数周且极易遗漏关键资源。
- 格式标准不统一:不同来源的数据结构各异(有的仅有答案,有的缺乏推理步骤),团队需编写大量自定义脚本进行清洗和对齐,容易引入人为错误。
- 缺乏高质量标注:难以获取经过严格验证的“人类生成”推理链条作为黄金标准,导致模型训练只能依赖质量参差不齐的自动生成数据,诊断逻辑不可靠。
- 复现与对比困难:由于缺乏统一的基准框架,团队难以复现论文中的最先进(SOTA)结果,也无法公平评估自家模型在科学推理任务上的真实提升。
使用 ThoughtSource 后
- 一站式资源获取:通过 ThoughtSource 提供的标准化数据加载器,团队几分钟内即可直接调用包含人类标注推理链的 WorldTree 和 EntailmentBank 等医学/科学数据集。
- 开箱即用的格式:所有数据自动转换为统一的 Hugging Face 格式,内置了连贯的思维链结构,工程师可立即投入模型微调,无需额外清洗。
- 可信的黄金标准:直接利用工具中集成的高质量人类推理数据作为训练靶标,显著提升了模型在复杂医疗问答中的逻辑严密性和可解释性。
- 高效基准评估:借助内置的评测流程,团队能快速将模型表现与 Wei 2022 等经典研究进行横向对比,精准定位优化方向。
ThoughtSource 通过提供统一、可信的思维链数据枢纽,将医疗 AI 模型的研发周期从数月缩短至数天,并显著提升了诊断推理的可靠性。
运行环境要求
- Linux
未说明
未说明

快速开始
ThoughtSource⚡
机器思维科学的框架
ThoughtSource 是一个以大型语言模型中的思维链推理相关数据和工具为核心的开放资源与社区(Wei 2022)。我们的长期目标是使先进的人工智能系统具备可信且稳健的推理能力,从而推动科学研究和医疗实践的发展。
📄 预印本:Ott 等人 “ThoughtSource:大型语言模型推理数据的中心枢纽”,arXiv,2023 年
📄 预印本:Hebenstreit 等人 “一种自动发现的思维链提示可泛化至新型模型和数据集”,arXiv,2023 年
工作流程
可用数据集
我们的 dataloaders 允许您以标准化的思维链格式访问以下数据集。这些加载器会创建符合 Hugging Face 🤗 Datasets 格式的对象。我们对源数据集进行了不同程度的后处理,以构建更加连贯的推理链条。
通用问答
commonsense_qa: 多选题常识知识问答数据集(Talmor 2018,许可协议: MIT)。包含来自三个不同来源的推理链条:
- __人工生成__的推理链条源自 ECQA 数据集(Aggarwal 2021),用于训练集和验证集。作为黄金标准。许可协议: Community Data License Agreements Sharing 许可协议 1.0。
- AI 生成(少样本提示) 的推理链条来自 Wei 2022。仅适用于 验证集。许可协议: 未知
- AI 生成(零样本提示) 的推理链条来自 Kojima 2022。仅适用于 验证集。许可协议: 未知
strategy_qa: 来自 StrategyQA 数据集的通用领域问答数据,推理链条源自原始数据集。(Geva 2021)。许可协议: MIT。
- __人工生成__的推理链条源自原始数据集,用于训练集。作为黄金标准。许可协议: MIT。
- AI 生成(少样本) 的推理链条来自 Wei 2022。仅适用于 训练集。许可协议: 未知
- AI 生成(零样本) 的推理链条来自 Kojima 2022。仅适用于 训练集。许可协议: 未知
科学/医学问答
- worldtree: 来自 WorldTree v2 数据集的科学问答数据(Xie 2020)。__人工生成__的推理链条源自原始数据集。许可协议: AI2 Mercury。
- entailment_bank: 来自 EntailmentBank 数据集的科学考试题目及专家撰写的解释(Dalvi 2022)。__人工生成__的推理链条源自原始数据集。许可协议: CC BY 4.0。(注:与 worldtree v2 存在显著重叠)
- open_book_qa: 模仿开卷考试设计的科学问答数据,用于评估人类理解能力(Mihaylov 2018)。__人工生成__的推理链条源自原始数据集。许可协议: Apache 许可协议 2.0。
- med_qa(USMLE 子集): 包含美国医师执照考试(USMLE)题目在内的自由形式多选题开放问答数据集。注意:原始 MedQA 数据集还提供中文数据,目前暂未纳入。(Jin 2020)。许可协议: MIT。
此外,该数据集也有开放回答版本。(Nair 2023)。许可协议: MIT。- AI 生成(零样本) 的推理链条源自 Liévin 2022。仅适用于 测试集,且仅限美国题目。许可协议: 未知。
- medmc_qa: 包含印度全印医学科学研究所(AIIMS PG)和国家资格兼入学考试(NEET PG)真实医学入学考试题目的多选题问答数据集。(Pal 2022)。许可协议: MIT。
- __人工生成__的推理链条源自原始数据集,约占训练集和验证集的 85%。作为黄金标准。许可协议: MIT。
- AI 生成(零样本) 的推理链条源自 Liévin 2022。仅适用于 验证集 中的 1000 个样本。许可协议: CC-BY。
- mmlu: (大规模多任务语言理解)是一个包含 57 个不同问答任务的汇编。其中包含了与医学相关的六个主题:解剖学、临床知识、大学生物学、大学医学、医学遗传学和专业医学。许可协议: MIT。
- pubmed_qa: 包含从 PubMed 摘要中提取的生物医学问题的问答数据,这些问题可以用“是/否/也许”来回答(Jin 2019)。许可协议: MIT。
- __人工生成__的推理链条源自原始数据集。作为黄金标准。许可协议: MIT。
- AI 生成(零样本) 的推理链条源自 Liévin 2022。仅适用于 测试集。许可协议: CC-BY。
数学文字题
- aqua: 来自 AQUA-RAT(带有推理过程的代数问答)数据集的数学文字题(Ling 2017)。推理链源自原始数据集。许可证: Apache 2.0。
- asdiv: 来自中央研究院多样化 MWP 数据集的数学文字题(Miao 2020)。推理链源自原始数据集。许可证: CC BY-NC 4.0。
- gsm8k: 来自 GSM8K 数据集的数学文字题(Cobbe 2021)。推理链源自原始数据集。许可证: MIT。
- mawps: 来自 MAWPS 数学文字题库数据集的数学文字题(Koncel-Kedziorski 2016)。推理链源自原始数据集。许可证: MIT。
- svamp: 数学文字题。来源:SVAMP(Patel 2021)。推理链源自原始数据集。许可证: MIT。
数据集合集
为了快速且经济地评估思维链推理能力,我们将上述数据集中的随机示例组合成合集。
- ThoughtSource_33(Hebenstreit 2023)是由常识问答、MedQA(USMLE)、MedMCQA、OpenBookQA、StrategyQA 和 WorldTree V2 各取 33 个样本组成的合集。我们使用十种不同的提示策略生成零样本思维链,并由六种模型执行:davinci-002、davinci-003、GPT-3.5-turbo、GPT-4、Flan-T5-XXL 和 Cohere 的 command-xlarge-nightly。
数据可轻松访问:
collection = Collection.load_thoughtsource_33()
我们正在收集和生成更多数据集,并进一步提升现有数据集的质量(参见 数据集问题)。我们也欢迎关于纳入其他数据集的建议。
我们欢迎数据集贡献!👉 请查看我们的贡献指南!
注释工具
该注释工具可以突出显示不同生成的推理链之间的相似之处,从而更容易发现优势与不足,并选出最佳结果。
安装与代码结构
安装
在终端中逐行执行:
git clone git@github.com:OpenBioLink/ThoughtSource.git
cd ThoughtSource
# 安装 pip 和 virtualenv
sudo apt install python3-pip
sudo apt install python3-venv
# 创建并激活虚拟环境
python3 -m venv venv
source ./venv/bin/activate
# 安装依赖和 API 包
pip install -e ./libs/cot[api]
应用程序
annotator: 基于 Web 的思维链数据注释工具。
dataset-viewer: 用于浏览 ThoughtSource 数据集的 Streamlit 应用程序。
库
- cot:
- dataloader:创建和处理 ThoughtSource 数据集(基于 Hugging Face 🤗 Datasets 库)。
- generate:使用多种语言模型生成推理链(目前包括 OpenAI 和 Hugging Face Hub 上的模型)。
- evaluate:评估通过生成的推理链提取的预测性能。
# 1) 加载数据集并选择一个随机样本
collection = Collection(["worldtree"], verbose=False)
collection = collection.select(split="train", number_samples=10)
# 2) 语言模型生成思维链并提取答案
config={
"instruction_keys": ['qa-01'], # “通过逐步推理回答以下问题。”
"cot_trigger_keys": ['kojima-01'], # “答案:让我们一步一步思考。”
"answer_extraction_keys": ['kojima-A-D'], # “因此,在 A 到 D 中,答案是”
"api_service": "huggingface_hub",
"engine": "google/flan-t5-xl",
"warn": False,
"verbose": False,
}
collection.generate(config=config)
# 3) 性能评估
collection.evaluate()
{'accuracy': {'qa-01_kojima-01_kojima-A-D': 0.6}}
👉 更多代码示例,请参阅教程笔记本。
引用
@misc{https://doi.org/10.48550/arxiv.2301.11596,
doi = {10.48550/ARXIV.2301.11596},
url = {https://arxiv.org/abs/2301.11596},
author = {Ott, Simon and Hebenstreit, Konstantin and Liévin, Valentin and Hother, Christoffer Egeberg and Moradi, Milad and Mayrhauser, Maximilian and Praas, Robert and Winther, Ole and Samwald, Matthias},
keywords = {计算与语言 (cs.CL), 人工智能 (cs.AI), FOS:计算机与信息科学, FOS:计算机与信息科学},
title = {ThoughtSource:大型语言模型推理数据的中心枢纽},
publisher = {arXiv},
year = {2023},
copyright = {知识共享署名 4.0 国际许可协议}
}
版本控制
所有对数据集的更新/更改均以粗体明确标注。
1.0.0(2023年7月11日)
- 发布 ThoughtSource_33 合集,每个条目包含 60 条推理链:
Collection.load_thoughtsource_33() - 添加了创建链式命令的选项
- 增加了 GPT 的聊天功能
- 添加了针对已生成思维链的筛选功能
- 新增数据集:MMLU(六个医学子集)以及 MedQA 的开放式问题版本
0.0.5(2023年3月10日)
- 增加了加载后选择保留哪些生成的思维链的功能:
collection.select_generated_cots(author="thoughtsource")
0.0.4(2023年3月8日)
- 改进了评估功能
- 增加了加载 ThoughtSource100 合集的功能:
Collection.load_thoughtsource_100()
0.0.3(2023年2月24日)
- 发布 ThoughtSource_100 合集,其中包含来自 GPT-text-davinci-003、flan-t5-xxl 和 cohere's command-xl 的推理链
0.0.2(2023年2月15日)
- 更新了注释工具,使其符合正确的数据模式(这可能导致从 JSON 文件加载旧数据集时出现错误)
- Pubmed_qa:将原始模式中的“LONG_ANSWER”作为“cot”纳入 ThoughtSource 模式
0.0.1(2023年2月1日)
- 在 Twitter 上宣布项目后首次发布
版本历史
v1.0.02023/07/11v0.0.52023/03/10v0.0.42023/03/08v0.0.32023/03/08v0.0.22023/03/08v0.0.12023/03/08常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。